Scrapy爬虫执行中yield请求未被抛出(或抛出未执行)解决方法(亲测有效)

当我们在执行scrapy调试的时候可能会遇到yield请求未正确抛出的情况。

1、查看scrapy执行日志

日志中的这一项表示,我们的请求被过滤掉了20条。

解决方法:

1、将我们的请求ip地址域名(如:blog.csdn.net)添加到spider爬虫文件的allowed_domains数组中

(另外:我们的允许请求域名中,域名后不需要添加‘/’号,否则会将我们正常的请求过滤掉)

2、在我们的yield Request请求中添加

dont_filter=True

再次执行爬虫文件即可正常执行,并进行下一个请求的获取和执行。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值