warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma

最新推荐文章于 2024-01-04 16:49:57 发布

weixin_30571465

最新推荐文章于 2024-01-04 16:49:57 发布

阅读量798

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/shaoqizhi/p/10012456.html

版权

多页面循环爬取数据抛出如下异常

warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma

代码没有报错,只是输出了第一层的Web的爬取结果。但是第二层没有执行爬取。

问题分析
从日志来进行分析,没有发现错误信息;第一层代码爬取正确,但是第二层web爬取,没有被执行,代码的编写应该没有问题的。 
那问题是什么呢?会不会代码没有被执行呢?通过添加日志,但是对应的代码并没有执行,日志也被正常输出。是不是被过滤或者拦截了,从而代码没有被执行? 
经过代码审查之后,发现allowed_domains设置的问题,由于起设置不正确,导致其余的链接被直接过滤了。 
关于allowed_domains需要是一组域名,而非一组urls。

问题的解决
需要将之前的domain name修改一下:

allowed_domains = [‘http://www.heao.gov.cn/‘]

将起修改为:

allowed_domains = [‘heao.gov.cn’]

重新执行爬虫,发现多个层次是可以被正确爬取的。

总结
关于scrapy是一整套的解决方案,其中很多的设置和配置需要通过不同的实例来反复理解和应用的,才能如鱼得水,庖丁解牛般快速定位问题。

转载于:https://www.cnblogs.com/shaoqizhi/p/10012456.html

weixin_30571465

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma

多页面循环爬取数据抛出如下异常warnings.warn("allowed_domains accepts only domains, not URLs. Ignoring URL entry %s in allowed_doma　　代码没有报错,只是输出了第一层的Web的爬取结果。但是第二层没有执行爬取。问题分析从日志来进行分析,没有发现错误信息;第一...
复制链接

扫一扫