scrapy和headless完美结合

scrapy_headless(作者:fandsimple)

git地址:github.com/fandsimple/…

scrapy和headless完美结合

问题描述

我们平时能够使用scrapy的时候绝大多数情况是不会使用headless+selenium的,因为那些无头浏览器的抓取速度和scrapy直接抓取速度是相差太远的,可是有些页面的访问需要配合相应的cookies才能正确访问,可是在某些时候我们无法分析出这些cookies来自哪里,是怎么生成的,所以此时我们会想起使用selenium+headless,可是我们只需要它进行访问一个页面,访问完这个页面后继续使用scrapy去抓取数据,为了满足这个需求,我们就需要将selenium和scrapy完美的结合起来。
复制代码

误区

有人会以为这样小题大作,有的人会这样思考,有这么麻烦么,在使用的时候导包,然后进行网页打开不就可以了么。我当时使用的时候也是这样想的,可是在实践过程中,遇到这样一个问题,假如有个url列表,需要使用selenium去访问,可是selenium访问是同步的,耗时较长,所以如果这个url列表很大的话根本执行不下去,下面封装的这个scrapy和headless结合的简单框架,用法和平时使用scrapy几乎一样,调度的时候也是利用scrapy的Engine(调度中心)进行调度的,这样就可以异步进行了。
复制代码

大概思路

利用scrapy的下载中间件,自己重写middleware中的process_request方法,利用其返回值不同进行改变程序执行流程,当需要selenium执行的时候,在中间件中利用headless进行访问,然后模拟构造scrapy的Request对象,直接返回Response对象,这样就可以不去远程服务器上进行下载,直接返回到spider中。
复制代码

框架的使用

说明:直接克隆项目,配置好chromedriver,然后运行即可,读者可以重点阅读myMiddlewares中seleniumMiddleware中的SeleniumMiddleware类,该类特别简单。
在setting.py文件中可以对headless进行一些简单配置,详情以在setting文件中标明。如需其他配置,读者可以自己拓展。

使用:同scrapy中用法相同,只是在yield request之前,需要进行request.meta['is_selenium'] = True,标志该请求需要使用headless进行发起。
复制代码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值