主要方法是:
def param_main(self, response):
all_item_css = response.css("div.item")
# 各种操作...
yield scrapy.Request(response.url, callback=self.param_main, dont_filter=True, meta={})
想要循环抓取同一URL,必须在yield scrapy.Request中,同时满足以下两点:
callback指向自己(类似于递归)dont_filter=True
这时这个url才能是自己的url
本文介绍了如何使用Scrapy框架循环抓取同一URL。关键在于`yield scrapy.Request()`的设置,需确保`callback`指回当前方法且`dont_filter=True`,以避免URL被过滤,实现递归爬取。

被折叠的 条评论
为什么被折叠?



