-
要将selenium集成到scrapy,首先要考虑的是通过selenium访问到了网站页面后如何直接将内容传递给爬虫,而不是再经过下载器,这里就需要用到scrapy提供的Htmlresponse,当scrapy检测到该response对象后便不会再执行下载器,直接将其传递给爬虫,那么我们就可以在以中间件的形式接收request,然后获取url提供给selenium访问页面,用page_source方法提取页面内容,传递给Htmlresponse
导入selenium和Htmlresponse:from selenium import webdriver
,from scrapy.http import HtmlResponse
将该中间件添加到settings
的DOWNLOADER_MIDDLEWARES
中
接着在爬虫中写想要提取数据的
scrapy爬虫(七)--如何将selenium集成到scrapy中
最新推荐文章于 2023-03-27 18:27:15 发布