python动态爬取数据_使用Scrapy爬取动态数据

对于动态数据的爬取,可以选择selenium和PhantomJS两种方式,本文选择的是PhantomJS。

网址:

https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

1.首先第一步,对中间件的设置。

进入pipelines.py文件中:

from selenium import webdriver

from scrapy.http.response.html import HtmlResponse

from scrapy.http.response import Response

class SeleniumSpiderMiddleware(object):

def __init__(self):

self.driver = webdriver.PhantomJS()

def process_request(self ,request ,spider):

# 当引擎从调度器中取出request进行请求发送下载器之前

# 会先执行当前的爬虫中间件 ,在中间件里面使用selenium

# 请求这个request ,拿到动态网站的数据 然后将请求

# 返回给spider爬虫对象

if spider.nam

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值