1.首先,确保安装了ptantomjs,如没有安装,安装教程链接为:https://blog.csdn.net/weixin_42657103/article/details/81543113
安装完成后,创建爬虫项目,然后进入middleware.py 中,进行如下操作:
from scrapy import signals
from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
from scrapy.http.response import Response
class SeleniumSpiderMiddleware(object):
def __init__(self):
self.driver = webdriver.PhantomJS()
def process_request(self,request,spider):
# 当引擎从调度器中取出request进行请求发送给下载器之前,会先执行当前爬虫的中间件,
#在中间件里面使用selenium请求这个request,拿到动态网站的数据,然后将请求返回给spider爬虫对象
if spider.name == 'taobao':
# 使用爬虫文件的url地址
spider.driver.get(request.url)
for x in range(1,12,2):
i =float(x)/11
# sc