爬取分页如果能获取到下一页最好就下一页,不要过度依赖scrapy的url去重功能

我用CrawlSpider爬电商的网站分页时觉得反正可以url去重功能,索性把分页栏的每一页url都获取并发送请求获取相应,相信总会每次访问新一页的response后都会只拿以前每拿过的下一页url,以前都拿过的url通通不要,从而实现不断地获取下一页。

结果我很快被amazon打脸:

https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8%A1%A8&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1558952688&ref=sr_pg_2
https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8%A1%A8&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1558952682&ref=sr_pg_2

这2个url都能访问到同一个页面,但是url不同!!只有&qid=1558952682的地方不一样,去掉&qid=xxx也照样可以访问同一页面。而这2个都是第二页的url只是来自不同分页而已,结果就不一样了。所以我获取的分页url总是在第2,3,4或者1,3,4、3,4,5页等等徘徊,总之搞了好久都没能获取第五页往后的url。
总结:能获取下一页url就最好了,否则可能会被坑。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值