1.回调问题:
在用scrapy做分布式爬虫爬取豆瓣top250网站的时候遇到了回调问题,通过查找资源,查看别人的解决方案,发现在回调时资源被过滤掉了,因此回调失败,原因是middleware如果没有自定义,那么就是默认的Offsite Spider Middleware,它的作用就是过滤掉那些不在allowed_domains列表中的requests。
参考url:https://doc.scrapy.org/en/latest/faq.html?highlight=offsite%2Ffiltered
解决办法:
1.在allowed_domains中加入url
2.在scrapy.Request()中间将参数dont_filter设置为ture:
dont_filter=Ture
就可以解决回调时遇到的问题。