Scrapy爬虫返回403错误的解决方法

最新推荐文章于 2025-02-10 11:00:00 发布

Coder_Jh

最新推荐文章于 2025-02-10 11:00:00 发布

阅读量1.3w

点赞数 6

本文链接：https://blog.csdn.net/qq_31239371/article/details/82999392

版权

本文介绍了在使用Scrapy爬取豆瓣网站时遇到403错误的原因及解决方法，包括设置headers、修改setting.py文件、使用代理IP等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：

今天在用scrapy爬取豆瓣时，出现了403的错误，如下所示：

出现这个问题的原因其实是你所爬的网站使用了反爬机制，即会检查用户代理（User Agent）信息，此时需要在爬虫文件中设置headers。

解决方法：

如下，在你的爬虫文件中加入以下代码：

def start_requests(self):
        yield Request("http://www.douban.com/",
                      headers={'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"})

如果采取了上述方法仍未解决的话，则可以尝试在你的setting.py文件中增加USER_AGENT配置：在setting.py中找到USER_AGENT的位置，将其前面的#去掉，然后将它的值改为你的User Agent信息，最终的效果如下：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

若经过以上操作还没有解决问题，仍出现403的错误，可能是你的ip被封了，这时候就要用到代理ip的方法的，具体如何操作就不在这里详述了，google即可。希望能给初学scrapy的小伙伴带来帮助。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Coder_Jh

关注关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

scrapy shell 调试返回403 返回为[]

04-22

317

https://blog.csdn.net/weixin_35913759/article/details/76546171

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

热门推荐

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

2 条评论您还未登录，请先登录后发表或查看评论

使用scrapy爬虫遇到403错误的解决办法

qq_42984581的博客

09-21

2823

之前使用scrapy爬虫遇到了403错误，参考了别人的解决办法，觉得还挺有用的。运行代码提示错误：Ignoring response <403 http://basic.10jqka.com.cn/600004/company.html>: HTTP status code is not handled or not allowed 解决办法：添加user-agent 1、打开开发...

scrapy爬虫返回403

zxy2011qp的专栏

07-20

1632

由于很多网站有反爬虫的机制，所以需要伪装浏览器，最简单的加上headers。目前没有找到scrapy怎么加headers的方法，只能通过如下修改scrapy的配置。一、问题描述有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面 C:/Users/fendo>scrapy shell https:/

Scrapy使用隧道代理403问题解决方案

K哥爬虫

02-03

9万+

Scrapy使用隧道代理访问HTTPS网站不换IP排查客户现象快代理隧道代理客户反馈使用隧道代理没有换IP，原因是使用了隧道代理但是目标网站还是403，跳验证码屏蔽等等，用户推断隧道没有更换代理IP 反爬研究询问用户访问的网站是https://book.douban.com/，豆瓣读书 https://book.douban.com/subject/35313246/?icn=index-latestbook-subject，35313246应该为book的id，需要访问那本书直接更换id即可自己编

scrapy 403error

maozezhong0的博客

09-07

532

原文链接：http://blog.csdn.net/tchenjx/article/details/51723726 user_agent:http://www.360doc.com/content/12/1012/21/7662927_241124973.shtml

scrapy中shell出现403解决方案

jixn的博客

02-21

9166

我们使用scrapy shell来进行调试是很方便的，但是有时会出现403错误的问题，我们来解决这个问题：出现403，表示网站拒绝提供服务因为有的网站有反爬机制，当你使用scrapy shell的时候是以是scrapy爬虫的标识进行访问网站的，这时候网站会拒绝为爬虫提供服务，这时候就会返回403错误下面列举三个方案来解决这个问题，三个方案的原理都是一样的，即修改user-agent的值，使...

使用scrapy做爬虫遇到的一些坑：爬虫使用scrapy爬取网页返回403错误大全以及解决方案

weixin_41931602的博客

05-04

3万+

今天学习scrapy爬取网络时遇到的一些坑的可能正常情况：DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None) 错误情况：DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None) 一，网址的错误一开始...

Scrapy 爬虫异常处理的解决方案

最新发布

LYFYSZ123的博客

02-10

1094

Scrapy 爬虫异常处理是一个重要的环节，可以通过使用 try-except 语句块、中间件、errback 回调函数等方法来捕获和处理异常。遵循及时捕获和记录异常信息、合理设计重试机制、良好的日志记录等基本原则，可以有效提高爬虫的稳定性和健壮性。

scrapy 爬虫 403 错误

weixin_39720495的博客

10-23

2405

在爬 https://hotel.meituan.com/hangzhou/ 美团的一个酒店信息时候，浏览器链接访问正常，但是爬虫报错如下： ... 019-10-23 11:45:54 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2019...

Python爬虫抓取图片以及使用Spider模仿用户行为抓取403错误网页

08-03

Python爬虫入门所有代码，其中包括Python爬虫抓取网页、Python爬虫抓取图片以及使用Spider模仿用户行为抓取403错误网页

Scrapy 爬虫超时问题的解决方案

LYFYSZ123的博客

02-08

1430

Scrapy 爬虫超时问题是一个常见的问题，可以通过调整超时时间、捕获异常并重新请求、使用代理、模拟浏览器行为和检查网络连接等方法来解决。根据实际情况选择合适的解决方案，可以有效提高爬虫的效率和稳定性。

Scrapy 爬虫用户代理问题的解决方案

LYFYSZ123的博客

02-08

1324

Scrapy 爬虫用户代理问题是一个常见的问题，可以通过设置固定用户代理、使用随机用户代理、使用代理 IP、遵守网站的 robots.txt 文件以及限制爬取速度等方法来解决。根据实际情况选择合适的解决方案，可以有效提高爬虫的成功率和稳定性。

Scrapy shell调试返回403错误

fendo

04-17

1万+

一、问题描述有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面 C:\Users\fendo>scrapy shell https://book.douban.com/subject/26805083/ 2017-04-17 15:18:53 [scrapy.utils.log] INFO: Scra

Scrapy: 爬虫返回403错误

徐代龙的技术专栏

08-11

3170

问题抓取数据时，通常调试信息是：DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)如果出现 DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)表示网站采用了防爬技术anti-web-crawling technique（Ama

Scrapy爬取百度股票时遇403错误的解决方法

sinat_34073684的博客

05-08

5222

用Scrapy爬取百度股票的单支股票信息时，遇到403拒绝访问错误，这应该是触发了反爬机制。解决方法：通过尝试发现百度股票（http://gupiao.baidu.com）反爬机制是检测User-Agent，因此这里可以通过使用随机User-Agent来进行爬取。

scrapy 爬豆瓣返回403错误的解决方法

xiemanR的专栏

12-29

1万+

用scrapy爬豆瓣的某些页面返回403错误：解决方法：在setting.py文件中增加USER_AGENT配置： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

使用scrapy做爬虫遇到的一些坑：网站常用的反爬虫策略，如何机智的躲过反爬虫Crawled (403)

weixin_41931602的博客

06-13

2万+

在这幅图中我们可以很清晰地看到爬虫与反爬虫是如何进行斗智斗勇的。在学习使用爬虫时，我们制作出来的爬虫往往是在“裸奔”，非常的简单。简单低级的爬虫有一个很大的优点：速度快，伪装度低。如果你爬取的网站没有反爬机制，爬虫们可以非常简单粗暴地快速抓取大量数据，但是这样往往就导致一个问题，因为请求过多，很容易造成服务器过载，不能正常工作。于是许多网站为了保护自己的服务器，往往会采用反爬虫技术来“狙击”爬虫，...

Scrapy爬虫框架入门教程

"Scrapy爬虫框架笔记" Scrapy是一个强大的、开源的Python爬虫框架，专为数据抓取和处理而设计。它支持全站爬取，特别适合抓取和处理网页上的大量数据。Scrapy的核心特性在于其异步抓取机制，这使得它在处理多个请求...