在用scrapy框架爬取某些网站碰到需要提取ajax请求的json数据时,可能会出现url不在允许的域名范围内,这个时候就会出现下面这种错误:
Filtered offsite request to 'xxxxxxxx'
这个时候只需要停掉过滤功能就好了:
yield scrapy.Request(
url=url2,
callback=self.parse_detail,
headers=headers,
dont_filter=True,
meta={"item": deepcopy(item)}
)