warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma

多页面循环爬取数据抛出如下异常

warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma

  

代码没有报错,只是输出了第一层的Web的爬取结果。但是第二层没有执行爬取。

问题分析
从日志来进行分析,没有发现错误信息;第一层代码爬取正确,但是第二层web爬取,没有被执行,代码的编写应该没有问题的。 
那问题是什么呢?会不会代码没有被执行呢?通过添加日志,但是对应的代码并没有执行,日志也被正常输出。是不是被过滤或者拦截了,从而代码没有被执行? 
经过代码审查之后,发现allowed_domains设置的问题,由于起设置不正确,导致其余的链接被直接过滤了。 
关于allowed_domains需要是一组域名,而非一组urls。

问题的解决
需要将之前的domain name修改一下:

allowed_domains = [‘http://www.heao.gov.cn/‘]

将起修改为:

allowed_domains = [‘heao.gov.cn’]

重新执行爬虫,发现多个层次是可以被正确爬取的。

总结
关于scrapy是一整套的解决方案,其中很多的设置和配置需要通过不同的实例来反复理解和应用的,才能如鱼得水,庖丁解牛般快速定位问题。

 

转载于:https://www.cnblogs.com/shaoqizhi/p/10012456.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值