scrapy爬虫循环抓取同一个url，避免同一URL使爬虫关闭

最新推荐文章于 2024-07-06 11:36:48 发布

呆萌的代Ma

最新推荐文章于 2024-07-06 11:36:48 发布

阅读量1.4k

点赞数

分类专栏：爬虫文章标签：爬虫

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/122762348

版权

爬虫专栏收录该内容

51 篇文章 4 订阅

订阅专栏

主要方法是：

def param_main(self, response):
    all_item_css = response.css("div.item")
    # 各种操作...
    yield scrapy.Request(response.url, callback=self.param_main, dont_filter=True, meta={})

想要循环抓取同一URL，必须在yield scrapy.Request中，同时满足以下两点：

callback指向自己（类似于递归）
dont_filter=True

这时这个url才能是自己的url

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

呆萌的代Ma

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy爬虫循环抓取同一个url，避免同一URL使爬虫关闭

主要方法是：def param_main(self, response): all_item_css = response.css("div.item") # 各种操作... yield scrapy.Request(response.url, callback=self.param_main, dont_filter=True, meta={})想要循环抓取同一URL，必须在yield scrapy.Request中，同时满足以下两点：callback指向自己（类似于递归
复制链接

扫一扫