scrapy抓取豆瓣网信息时报错提醒INFO: Ignoring response ＜403 https://movie.douban.com/top250＞: HTTP status code is

最新推荐文章于 2023-05-17 16:05:42 发布

攻城狮小关

最新推荐文章于 2023-05-17 16:05:42 发布

阅读量3.8k

点赞数 9

分类专栏： scrapy 文章标签： python 爬虫后端

本文链接：https://blog.csdn.net/Mumaren6/article/details/108221055

版权

scrapy 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

自学python的爬虫scrapy,可能会遇到如下问题：

通过上文解释对豆瓣网进行抓取过程中出现报错如下：

2020-08-20 14:27:46 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-08-20 14:27:47 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250> (referer: None)
2020-08-20 14:27:47 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed
2020-08-20 14:27:47 [scrapy.core.engine] INFO: Closing spider (finished)

这是因为豆瓣服务器自带伪装防爬虫，解决办法如下：

1.打开pycharm,找到douban-->spiders-->setting.py-->USER_AGENT

2.这并不是一个标准的USER_AGENT，把里面内容删除，需要修改为豆瓣网的USER_AGENT

3.打开豆瓣网https://movie.douban.com/top250，按下F12查看网页代码

4.按下F5进行刷新，找到network-->top250(左键单击）-->User_Agent（在底部）复制后面长串

5.粘贴到刚才的setting.py-->USER_AGENT的引号里面，保存

6.最关键的一步，#USER_AGENT前面有一个#，表示注释，此时我们需要运行它，所以将#删去（字体变亮），保存

7.在cmd执行程序下cd douban 然后scrapy crawl douban_spider回车，出现下面界面即为成功

希望能帮到大家，问你们要一个赞，你们会给吗，谢谢大家
版权声明：本文版权归作者（@攻城狮小关）和CSDN共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
大家写文都不容易，请尊重劳动成果~
交流加Q：1909561302
博客园地址https://www.cnblogs.com/guanguan-com/

攻城狮小关

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy抓取豆瓣网信息时报错提醒INFO: Ignoring response ＜403 https://movie.douban.com/top250＞: HTTP status code is

自学python的爬虫scrapy,可能会遇到如下问题：通过上文解释对豆瓣网进行抓取过程中出现报错如下：2020-08-20 14:27:46 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232020-08-20 14:27:47 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250&gt
复制链接

扫一扫