Scrapy翻页
next_page_url = response.xpath("//a[text()='下一页']"/@href).extract()
while len(next_page_url)>0
yield scrapy.Request(next_page_url,callback = self.parse)
# scrapy.Request 能构建一个requests,同时指定提取数据的callback函数
scrapy.Request知识点:
scrapy.Request(url,[callback,method='GET',headers,body,cookies,meta,dont_filter =False])
# 注意:一般文档中方框号的参数表示可选参数
常用参数:
callback:指定传入的url交给哪个解析函数去处理
meta:实现在不同的解析函数中传递数据,meta默认会携带部分信息,比如下载延迟,请求深度等
dont_filter:让scrapy的去重不会过滤当前的url,scrapy默认有url去重功能m对需要重复请求的url有重要用途