用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好
用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。
我们怎么用selenium实现与scrapy对接呢?思路就是直接返回selenium对页面提取的response,然后pass给spider进行解析,还是从spider开始说起:
首先我们创建一个spider,不使用start_urls,而是自己定义一个start_request,返回响应,如下:
def start_requests(self):
for keyword in self.settings.get('KEYWORDS'):
# 用于导出搜索的关键字
for page in range(1,self.settings.get('MAX_PAGES')):
# 用于导出可以爬取的页面数
# 实例的settings属性用于去除设置中的参数
url = self.base_urls + keyword
yield Request(url=url,meta={'page':page},callback=self.parse,dont_filter=True)
# 这里请求一个页面,是搜索空军一号的主页面,然后我们会在下载中间件里面对页面进行调整
# 这一步返回了selenium模拟进行的响应页面
这个是关键的步骤,接下来就是一个解析响应的方法,不用看了吧,还有就是。
注意,等会儿你就会知道这个Request返回的就是调用selenium返回的response
我们来着重看一下下载中间件的代码
from scrapy import signals
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http import HtmlResponse
class ScrapySeleniumDownloaderMiddleware(object):
def __init__(self,timeout=None,options=None):
self.timeout = timeout
self.options = options
self.driver = webdriver.Chrome(options=self.options)
self.wait = WebDriverWait(self.driver,self.timeout)
# 初始化一些基本的变量
def process_reqeust(self,request,spider):
try:
driver = self.driver.get(request.url)
# 生成一个页面的driver对象
page = request.mata.get('page')
# 这里取出刚刚倒进request中的page数
if page == 1:
pass # 直接就不用处理,就直接是这个首页的driver就可以了
else:
input_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="mainsrp-pager"]//input[@class="input J_Input"]')))
# 找到输入page的框框
submit_element = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="mainsrp-pager"]//span[@class="btn J_Submit"]')))
# 找到点击的按钮
input_element.clear()
# 清除里面原来可能包含的内容
input_element.send_keys(page)
submit_element.click()
# 如果不是等于一,那么还应该在这个找到输入框并输入页码,进行跳转
# 将这个driver改成跳转后的driver
yield HtmlResponse(url=request.url,body=driver.page_source,request=request,encoding='utf-8',status=200)
# 这里我们直接返回了经过selenium提取的页面
except TimeoutException:
return HtmlResponse(url=request.url,status=500,request=request)
# HtmlResponse是textResponse的一个子类,它会自动寻找适当的html文件编码,然后返回html类型的数据
# 注意我们这里返回的是一个response,所以,接下来我们就不会继续调用剩下的中间件的request和exception
# 的方法了,转而调用所有中间件的response方法
@classmethod
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
return cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
options=crawler.settings.get('CHROME_OPTIONS'))
# 这个类方法用于提取settings中的配置信息
# 返回一个实例
def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
经过上面就可以有一个实现scrapy对接selenium了,当然settings文件里面要记得打开下载中间件的选项