scrapy对接selenium（下载中间件的使用）

最新推荐文章于 2024-08-19 18:25:31 发布

killeri

最新推荐文章于 2024-08-19 18:25:31 发布

阅读量4.2k

点赞数

分类专栏： python爬虫(除scrapy框架） scrapy-爬虫文章标签： scrapy selenium

本文链接：https://blog.csdn.net/killeri/article/details/80525825

版权

python爬虫(除scrapy框架）同时被 2 个专栏收录

17 篇文章 2 订阅

订阅专栏

scrapy-爬虫

9 篇文章 7 订阅

订阅专栏

用scrapy对接selenium可以实现返回渲染好的页面，但是selenium是阻塞式的，也就是说，它每次只能进行一次请求，这样就会比较慢，所以并不推荐这种方法，今天这样做，只是为了练习一下下载中间件的使用，如果真要提取渲染好的页面，还是是用scrapy的Splash插件比较好

用scrapy对接selenium，必须用到现在中间件，我们知道，下载中间件可以对请求，响应或是错误进行处理。

我们怎么用selenium实现与scrapy对接呢？思路就是直接返回selenium对页面提取的response，然后pass给spider进行解析，还是从spider开始说起：
首先我们创建一个spider，不使用start_urls，而是自己定义一个start_request，返回响应，如下：

    def start_requests(self):
        for keyword in self.settings.get('KEYWORDS'):
        # 用于导出搜索的关键字
            for page in range(1,self.settings.get('MAX_PAGES')):
            # 用于导出可以爬取的页面数
            # 实例的settings属性用于去除设置中的参数
                url = self.base_urls + keyword
                yield Request(url=url,meta={'page':page},callback=self.parse,dont_filter=True)
                # 这里请求一个页面，是搜索空军一号的主页面，然后我们会在下载中间件里面对页面进行调整
                # 这一步返回了selenium模拟进行的响应页面

这个是关键的步骤，接下来就是一个解析响应的方法，不用看了吧，还有就是。
注意，等会儿你就会知道这个Request返回的就是调用selenium返回的response

我们来着重看一下下载中间件的代码

from scrapy import signals
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http import HtmlResponse


class ScrapySeleniumDownloaderMiddleware(object):
    def __init__(self,timeout=None,options=None):
        self.timeout = timeout
        self.options = options
        self.driver = webdriver.Chrome(options=self.options)
        self.wait = WebDriverWait(self.driver,self.timeout)
        # 初始化一些基本的变量
    def process_reqeust(self,request,spider):
        try:
            driver = self.driver.get(request.url)
            # 生成一个页面的driver对象
            page = request.mata.get('page')
            # 这里取出刚刚倒进request中的page数
            if page == 1:
                pass # 直接就不用处理，就直接是这个首页的driver就可以了
            else:
                input_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="mainsrp-pager"]//input[@class="input J_Input"]')))
                # 找到输入page的框框
                submit_element = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="mainsrp-pager"]//span[@class="btn J_Submit"]')))
                # 找到点击的按钮
                input_element.clear()
                # 清除里面原来可能包含的内容
                input_element.send_keys(page)
                submit_element.click()
            # 如果不是等于一，那么还应该在这个找到输入框并输入页码，进行跳转
            # 将这个driver改成跳转后的driver
            yield HtmlResponse(url=request.url,body=driver.page_source,request=request,encoding='utf-8',status=200)
            # 这里我们直接返回了经过selenium提取的页面
        except TimeoutException:
            return HtmlResponse(url=request.url,status=500,request=request)
            # HtmlResponse是textResponse的一个子类，它会自动寻找适当的html文件编码，然后返回html类型的数据
            # 注意我们这里返回的是一个response，所以，接下来我们就不会继续调用剩下的中间件的request和exception
            # 的方法了，转而调用所有中间件的response方法
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        return cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
                options=crawler.settings.get('CHROME_OPTIONS'))
    # 这个类方法用于提取settings中的配置信息
    # 返回一个实例
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)