[scrapy.spidermiddlewares.httperror] INFO: Ignoring respons 403...HTTP status code is not handled..

最新推荐文章于 2023-05-17 16:05:42 发布

自封的羽球大佬

最新推荐文章于 2023-05-17 16:05:42 发布

阅读量7.9k

点赞数 1

分类专栏： Scrapy 爬虫文章标签： scrapy 爬虫 python 403错误

本文链接：https://blog.csdn.net/qq_40795214/article/details/81989719

版权

本文记录了一位初学者在使用Scrapy框架进行爬虫实践时遇到403错误的过程。经过排查，问题源于要爬取的URL已失效。作者提醒学习者要注意网址的有效性，并欢迎经验丰富的开发者给予指导。

摘要由CSDN通过智能技术生成

分享一下这几天玩爬虫碰到的坑。

因为初学，所以边看书，边看别人的实例，本想照着别人的先搞出个小名堂，不料深陷403泥潭。我用的是scrapy框架，具体报错如下：

[root@Uu tutorial]# scrapy crawl dmoz -o torrents.jl
2018-08-23 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-08-23 22:49:26 [scrapy.utils.log] INFO: Versions: lxml 3.2.1.0, libxml2 2.9.1, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.7.0, Python 2.7.5 (default, Jul 13 2018, 13:06:57) - [GCC 4.8.5 20150623 (Red Hat 4.8.5-28)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0i  14 Aug 2018), cryptography 2.3.1, Platform Linux-3.10.0-693.el7.x86_64-x86_64-with-centos-7.4.1708-Core
2018-08-23 22:49:26 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'FEED_URI': 'torrents.jl', 'CONCURRENT_REQUESTS': 1, 'SPIDER_MODULES': ['tutorial.spiders'], 'BOT_NAME'

最低0.47元/天解锁文章

自封的羽球大佬

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[scrapy.spidermiddlewares.httperror] INFO: Ignoring respons 403...HTTP status code is not handled..

分享一下这几天玩爬虫碰到的坑。因为初学，所以边看书，边看别人的实例，本想照着别人的先搞出个小名堂，不料深陷403泥潭。我用的是scrapy框架，具体报错如下：[root@Uu tutorial]# scrapy crawl dmoz -o torrents.jl2018-08-23 22:49:26 [scrapy.utils.log] INFO: Scrapy 1.5.1 start...
复制链接

扫一扫

专栏目录