scarpy使用遇到的坑，总结

最新推荐文章于 2024-08-08 22:36:53 发布

Charles_456

最新推荐文章于 2024-08-08 22:36:53 发布

阅读量1.9k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/chaowanghn/article/details/54981058

版权

python 专栏收录该内容

36 篇文章 3 订阅

订阅专栏

除了抓取第一页外，抓取第2,3等下一页

参考：Python + Scrapy 抓取豆瓣电影 top 250
http://www.jianshu.com/p/62e0a588ee0d

    # 翻页
    next_page = response.xpath('//span[@class="next"]/a/@href')
    if next_page:
      url = response.urljoin(next_page[0].extract())
      yield scrapy.Request(url, self.parse)

如果下一页是js生成的，可以使用scrapy+selenium(慢)

参考：
selenium with scrapy for dynamic page
http://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page

如果下一页是js生成的，可以使用ScrapyJS

Scraping dynamic content using python-Scrapy
http://stackoverflow.com/questions/30345623/scraping-dynamic-content-using-python-scrapy
Scrapy爬虫中使用Splash处理页面JS
http://ae.yyuap.com/pages/viewpage.action?pageId=919763

Charles_456

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录