python 动态tabel的数据爬取_使用Scrapy爬取动态数据

对于动态数据的爬取,可以选择selenium和PhantomJS两种方式,本文选择的是PhantomJS。

网址:

1.首先第一步,对中间件的设置。

进入pipelines.py文件中:

from selenium import webdriver

from scrapy.http.response.html import HtmlResponse

from scrapy.http.response import Response

class SeleniumSpiderMiddleware(object):

def __init__(self):

self.driver = webdriver.PhantomJS()

def process_request(self ,request ,spider):

# 当引擎从调度器中取出request进行请求发送下载器之前

# 会先执行当前的爬虫中间件 ,在中间件里面使用selenium

# 请求这个request ,拿到动态网站的数据 然后将请求

# 返回给spider爬虫对象

if spider.name == 'taobao':

# 使用爬虫文件的url地址

spider.driver.get(request.url)

for x in range(1 ,12 ,2):

i = float(x) / 11

# scrollTop 从上往下的滑动距离

js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i

sp

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值