技术:网络爬虫
文章平均质量分 55
requests、scrapy、beautfulsoup
RealMoYe
进击的小矮人
展开
-
【转载】使用微博API接口获取数据
巧妇难为无米之炊。数据获取是数据分析的前提。许多网站会通过API接口向第三方开放网站的部分数据。新浪微博也不例外。你可以查看微博API列表。本文将对如何使用微博API做初步性的介绍,以获得基本概念和认识,方便之后的深入理解。step1: 使用python调用微博API,首先要下载python的SDK,即sinaweibopysinaweibopy是python专用的支持微博API的OAuth 2客户端,无依赖,100%纯Py,单个文件,代码简洁,运行可靠,也是新浪微博官方推荐的Python SDK。转载 2020-12-15 11:21:51 · 11081 阅读 · 0 评论 -
【python爬虫】几种连接错误
SSLErrorHTTPSConnectionPool(host=‘zh.esf.fang.com’, port=443): Max retries exceeded with url: /housing/671__0_26_0_0_1_0_0_0/ (Caused by SSLError(SSLError(“bad handshake: Error([(‘SSL routines’,‘tl...原创 2020-04-05 22:33:07 · 5327 阅读 · 0 评论 -
xpath中双斜杆的用处
// 从匹配选择的当前节点选择文档中的节点,不考虑它们的位置上面的说明有点绕,我们拆开来理解:匹配选择的当前节点就是xpath的双斜杠之前的规则所匹配得到的节点,此时以这个节点作为根节点来找其他节点;不考虑它们的位置指的是,即使当前节点下的内容存在嵌套关系,也直接忽略,由前到后进行匹配。看一个例子:# 我们想要从下列HTML文档中匹配出气温的范围,如何实现?# <div cla...原创 2019-08-29 22:03:08 · 1988 阅读 · 0 评论 -
百度地图POI数据获取并转为Excel文件
本文主要介绍百度地图POI数据获取及后续处理的过程。原创 2018-05-26 19:51:43 · 29894 阅读 · 33 评论 -
【网络爬虫】使用开放地图API请求小区名字并获取小区范围边界
开放地图API请求小区范围线原创 2020-01-12 01:13:02 · 9785 阅读 · 26 评论 -
【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件
BeautifulSoup基础使用实战原创 2019-04-02 10:08:33 · 2951 阅读 · 1 评论 -
CSDN的彩蛋
所有用户博客主页的博客列表有一篇隐藏的博客,篇名叫做《帝都的凛冬》。估计是CSDN为了防止爬虫做了手脚。点击我的博客,F12打开控制台,找到class = "article-list"的div标签,第一个article-item-box即为隐藏的博客。隐藏内容如下:<div class="article-item-box csdn-tracking-statistics" data-ar...原创 2019-04-02 15:28:51 · 216 阅读 · 0 评论 -
【爬虫】每天定时爬取网页小故事并发送至指定邮箱
看题目 ,需要实现三部分工作,第一部分为爬取网页小故事,第二部分为发送至指定邮箱,第三部分为定时启动程序。爬取网页内容可以使用BeautifulSoup库实现,发送邮件可以使用smtplib库实现,定时启动程序可以在Windows下设置任务计划程序实现。因此,本文主要包含了以下三部分内容:文章目录一、爬取网页故事1. 思路分析2. 示例代码二、Python发送邮件三、Windows设置任务计划程...原创 2019-04-20 17:30:21 · 2610 阅读 · 8 评论 -
基于Scrapy框架爬虫项目结构解析与编写步骤
一、项目结构下面是一个典型的Scrapy项目结构,它主要包含了几个组成部分:scrapy.cfg:整个项目的配置文件,在实际编写爬虫项目的时候基本不需要编辑;qiushi:保存项目源码的文件夹,也可以称为包或者模块,此文件夹内的文件在引用模块时以此文件夹作为根目录;items.py:定义我们需要的数据项,爬取的各种内容将作为数据项的属性,这个文件在实际编写爬虫时是最先定义的!pipe...原创 2019-09-03 21:49:45 · 493 阅读 · 0 评论