scrapy爬虫（七）--如何将selenium集成到scrapy中

最新推荐文章于 2024-05-31 21:24:28 发布

futianwenA

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量580

点赞数

分类专栏： Python 文章标签： python selenium 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/futianwenA/article/details/105362849

版权

要将selenium集成到scrapy，首先要考虑的是通过selenium访问到了网站页面后如何直接将内容传递给爬虫，而不是再经过下载器，这里就需要用到scrapy提供的Htmlresponse，当scrapy检测到该response对象后便不会再执行下载器，直接将其传递给爬虫，那么我们就可以在以中间件的形式接收request，然后获取url提供给selenium访问页面，用page_source方法提取页面内容，传递给Htmlresponse
导入selenium和Htmlresponse：from selenium import webdriver，from scrapy.http import HtmlResponse

将该中间件添加到settings的DOWNLOADER_MIDDLEWARES中

接着在爬虫中写想要提取数据的代码，这里我只提取首页第一篇文章的标题并打印

执行结果如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫（七）--如何将selenium集成到scrapy中

要将selenium集成到scrapy，首先要考虑的是通过selenium访问到了网站页面后如何直接将内容传递给爬虫，而不是再经过下载器，这里就需要用到scrapy提供的Htmlresponse，当scrapy检测到该response对象后便不会再执行下载器，直接将其传递给爬虫，那么我们就可以在以中间件的形式接收request，然后获取url提供给selenium访问页面，用page_sour...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。