scrapy和headless完美结合

最新推荐文章于 2019-09-23 18:15:31 发布

fandsimple

最新推荐文章于 2019-09-23 18:15:31 发布

阅读量319

点赞数

本文链接：https://blog.csdn.net/qq_36266877/article/details/104155094

版权

scrapy_headless（作者：fandsimple）

git地址：github.com/fandsimple/…

scrapy和headless完美结合

问题描述

我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的，因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的，可是有些页面的访问需要配合相应的cookies才能正确访问，可是在某些时候我们无法分析出这些cookies来自哪里，是怎么生成的，所以此时我们会想起使用selenium+headless，可是我们只需要它进行访问一个页面，访问完这个页面后继续使用scrapy去抓取数据，为了满足这个需求，我们就需要将selenium和scrapy完美的结合起来。
复制代码

误区

有人会以为这样小题大作，有的人会这样思考，有这么麻烦么，在使用的时候导包，然后进行网页打开不就可以了么。我当时使用的时候也是这样想的，可是在实践过程中，遇到这样一个问题，假如有个url列表，需要使用selenium去访问，可是selenium访问是同步的，耗时较长，所以如果这个url列表很大的话根本执行不下去，下面封装的这个scrapy和headless结合的简单框架，用法和平时使用scrapy几乎一样，调度的时候也是利用scrapy的Engine（调度中心）进行调度的，这样就可以异步进行了。
复制代码

大概思路

利用scrapy的下载中间件，自己重写middleware中的process_request方法，利用其返回值不同进行改变程序执行流程，当需要selenium执行的时候，在中间件中利用headless进行访问，然后模拟构造scrapy的Request对象，直接返回Response对象，这样就可以不去远程服务器上进行下载，直接返回到spider中。
复制代码

框架的使用

说明：直接克隆项目，配置好chromedriver，然后运行即可，读者可以重点阅读myMiddlewares中seleniumMiddleware中的SeleniumMiddleware类，该类特别简单。
在setting.py文件中可以对headless进行一些简单配置,详情以在setting文件中标明。如需其他配置，读者可以自己拓展。

使用：同scrapy中用法相同，只是在yield request之前，需要进行request.meta['is_selenium'] = True，标志该请求需要使用headless进行发起。
复制代码

fandsimple

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy和headless完美结合

scrapy_headless（作者：fandsimple）git地址：github.com/fandsimple/…scrapy和headless完美结合问题描述我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的，因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的，可是有些页面的访问需要配合相应的cookies才能正确访问，可是在...
复制链接

扫一扫