当我们在执行scrapy调试的时候可能会遇到yield请求未正确抛出的情况。
1、查看scrapy执行日志
日志中的这一项表示,我们的请求被过滤掉了20条。
解决方法:
1、将我们的请求ip地址域名(如:blog.csdn.net)添加到spider爬虫文件的allowed_domains数组中
(另外:我们的允许请求域名中,域名后不需要添加‘/’号,否则会将我们正常的请求过滤掉)
2、在我们的yield Request请求中添加
dont_filter=True
再次执行爬虫文件即可正常执行,并进行下一个请求的获取和执行。