scrapy抓取豆瓣网信息时报错提醒INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is

自学python的爬虫scrapy,可能会遇到如下问题:

通过上文解释对豆瓣网进行抓取过程中出现报错如下:

2020-08-20 14:27:46 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-08-20 14:27:47 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250> (referer: None)
2020-08-20 14:27:47 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed
2020-08-20 14:27:47 [scrapy.core.engine] INFO: Closing spider (finished)

这是因为豆瓣服务器自带伪装防爬虫,解决办法如下:

1.打开pycharm,找到douban-->spiders-->setting.py-->USER_AGENT

 

 

 2.这并不是一个标准的USER_AGENT,把里面内容删除,需要修改为豆瓣网的USER_AGENT

3.打开豆瓣网https://movie.douban.com/top250,按下F12查看网页代码

4.按下F5进行刷新,找到network-->top250(左键单击)-->User_Agent(在底部)复制后面长串

5.粘贴到刚才的setting.py-->USER_AGENT的引号里面,保存

 

6.最关键的一步,#USER_AGENT前面有一个#,表示注释,此时我们需要运行它,所以将#删去(字体变亮),保存

 

 

 

7.在cmd执行程序下cd douban 然后scrapy crawl douban_spider回车,出现下面界面即为成功

希望能帮到大家,问你们要一个赞,你们会给吗,谢谢大家
版权声明:本文版权归作者(@攻城狮小关)和CSDN共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
大家写文都不容易,请尊重劳动成果~ 
交流加Q:1909561302
博客园地址https://www.cnblogs.com/guanguan-com/

  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

攻城狮小关

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值