python | scrapy爬虫框架与selenium配合使用

最新推荐文章于 2024-05-31 21:24:28 发布

little star*

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量1.2k

点赞数

分类专栏： python 文章标签： python ajax selenium

本文链接：https://blog.csdn.net/Candance_star/article/details/105329768

版权

python 专栏收录该内容

33 篇文章 3 订阅

订阅专栏

1. scrapy框架

scrapy是基于twusted框架开发而来，twisted是一个流行的事件驱动难过的python网络框架，因此scrapy使用了一种非阻塞的代码来实现并发

scrapy的组成：

引擎engine：引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。
调度器scheduler：是用来接收引擎发过来的请求，压入队列中，并在迎请再次请求的时候返回，可以想象成一个URL的优先级队列，由他来护额顶下一个抓取的网址是什么，同时去除重复的网址
下载器downloader：用于下载网页内容，并将网页内容返回给engine，下载器是简历在twisted这个高效的异步模型上的
爬虫spider：spider是开发人员自定义的类，用于解析responses，并且提取items，或者发送新的请求
项目管道item piplines：在items被提取后负责处理他们，主要包括清理、验证、持久化等操作。
下载器中间件Downloader Midd;ewares：位于scrapy引擎和下载器之间，主要用于处理从EGINE传到downloader的请求request，已经从downloader传到engine的响应response
爬虫中间件spider Middlewares：位于engine和spider之间，主要工作是处理spider的输入和输出

2. scrapy框架 + selenium的使用

使用场景：

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值。

使用流程：

1.重写爬虫文件中的__init__()构造方法，在该方法中使用selenium实例化一个浏览器对象
2.重写哦啊冲文件的closed(self, spider)方法，在其内部关闭浏览器对象，该方法是在爬虫结束时被调用
3.重写下载中间件的process_response方法，让该方法对响应对象进行蓝家，并篡改response中存储的页面数据
4.在settings配置中开启下载中间件

little star*

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python | scrapy爬虫框架与selenium配合使用

1. scrapy框架scrapy是基于twusted框架开发而来，twisted是一个流行的事件驱动难过的python网络框架，因此scrapy使用了一种非阻塞的代码来实现并发scrapy的组成：引擎engine：引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。调度器scheduler：是用来接收引擎发过来的请求，压入队列中，并在迎请再次请求的时候返回，可以想象成一个...
复制链接

扫一扫

专栏目录