![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3+scrapy爬虫
s_kangkang_A
后来许多人问我一个人夜晚踟蹰路上的心情,我想起的却不是孤单和路长,而是波澜壮阔的海和天空中闪耀的星光。
展开
-
python3 + Scrapy爬虫学习之scrapy安装
scrapy是功能强大的爬虫库,属于爬虫工程师必备技能,这篇博客记录scrapy在windows下的安装及安装遇见的各种bugscrapy依赖于lxml 和Twisted,以及pypiwin32,没有pypiwin32在运行爬虫时会报错(没试过)上干货1,安装lxml pip install lxml2,pip install pypiwin323 ,根据python版本下...原创 2019-04-01 21:13:29 · 184 阅读 · 2 评论 -
python3 + Scrapy爬虫学习之创建项目
最近准备做一个关于scrapy框架的实战,爬取腾讯社招信息并存储,这篇博客记录一下创建项目的步骤pycharm是无法创建一个scrapy项目的因此,我们需要用命令行的方法新建一个scrapy项目请确保已经安装了scrapy,twisted,pypiwin32一:进入你所需要的路径,这个路径存储你创建的项目我的将放在E盘的Scrapy目录下二:创建项目:scrapy ...原创 2019-04-09 19:33:28 · 6548 阅读 · 19 评论 -
python3 + Scrapy爬虫学习之腾讯实战爬取
做了一个非常小,且不是那么完善的项目,目前爬取第一页的职位信息,主要目的是了解scrapy的使用,以及各个文件的配置方法,以后会加以完善。首先,我们进入腾讯招聘,并搜索python我们简单获取一下职位名称,职位类别,人数和地点这四项一:setting.py配置打开上篇博客创建的项目,并打开settings.py文件,我们需要配置以下几项1,把这个协议关了2,设置头部...原创 2019-04-09 21:32:13 · 510 阅读 · 0 评论 -
scrapy框架Downloader Middleware的简单应用
Downloader Middleware是框架中的一个组件,有着非常重要的作用。它通常用来做反爬,异常处理等。反爬措施包括基本的设置随机请求头,通过不停的改变请求头来应对反爬。设置ip代理来解决被封IP等。这里简介一下设置随机请求头的方法。首先我们创建一个试验项目,实验网站是httpbin.org如果你需要大量的浏览器请求头,点击这里:http://www.userage...原创 2019-05-01 22:35:17 · 314 阅读 · 2 评论 -
python3 + Scrapy爬虫学习之腾讯职位爬取优化
一直想优化这个项目,终于完成了,并不是很难,主要完成了以下两点优化:一:职位全部爬取二:存储到数据库,mongodb首先看一下tencentspider:# -*- coding: utf-8 -*-import scrapyfrom tencent.items import TencentItemclass TencentSpiderSpider(scrapy.Spid...原创 2019-04-24 20:52:59 · 574 阅读 · 2 评论 -
代码优化之通用爬虫——scrapy爬取文章吧
上上篇博客记录了文章吧的文章爬取,作为一个学习爬虫的专业的程序猿,自然是离不开框架的我们知道,我们爬取文章吧的文章,需要两步:1,获取列表页的url,并构造该url的后续url爬取2,在列表页获取详情页的url,进入详情页获取数据问题来了,我们一般的scrapy项目,只能针对一个url发送request并获取response解析,我们怎么一边遍历列表页,一遍从详情页获取数据呢。...原创 2019-04-29 23:39:53 · 446 阅读 · 2 评论 -
scrapy通用爬虫对接selenium+chromedriver实现简书整站爬取
此前已经做过一些对于ajax网站的爬取,或分析ajax规则,或使用selenium+chromedriver去爬取,但它们都是在scrapy框架外实现的,那么,怎么利用scrapy框架去爬取带有ajax加载数据的信息呢。以简书为例:如上图,我们发现有些文章它被较多的专题收录,那么我们想要获取没有显示出来的专题,该怎么办呢。然后,我们明确要做的是简书的整站爬虫,怎么能确保爬下来所有...原创 2019-05-07 20:55:39 · 2340 阅读 · 3 评论