scrapy——解决302重定向

最新推荐文章于 2024-04-24 16:55:30 发布

aqew43446

最新推荐文章于 2024-04-24 16:55:30 发布

阅读量1k

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/lanston1/p/11120444.html

版权

在爬虫多次请求时，有些网站会出现反爬虫措施：将请求链接重定向到一个提示404的链接或者验证码链接等阻止爬虫的进行，如下为解决方案：

def start_requests(self):
        for i in self.start_urls:
            yield Request(i, meta={
                'dont_redirect': True,
                'handle_httpstatus_list': [302]
            }, callback=self.parse) 

# 'dont_redirect': True是禁止重定向
# Request.meta 中的 handle_httpstatus_list 键可以用来指定每个request所允许的response code。

此外：

根据 HTTP标准，返回值为200-300之间的值为成功的resonse。

如果想处理在这个范围之外的response，可以通过 spider的 handle_httpstatus_list 属性或HTTPERROR_ALLOWED_CODES 设置来指定spider能处理的response返回值。

例如，如果想要处理返回值为404的response可以这么做:

class MySpider(CrawlSpider):
　　handle_httpstatus_list = [404]

转载于:https://www.cnblogs.com/lanston1/p/11120444.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aqew43446

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Scrapy爬虫返回302重定向问题解决方法

sapphire_wei的博客

11-20

5371

爬取页面时302重定向导致response页面与实际需要爬取的页面信息不一致。解决方法：有些网站需要检查cookies头部信息，这样无需登录就能进行访问，所以可以在settings中添加头部信息cookies，即可正常进行爬取操作 DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; ...

scrapy——安智市场app

eqwaak0的博客

04-24

1480

Scrapy是python主流爬虫框架，可以很方便的通过url抓取web信息，同时与传统的requests库相比，提供了更多的工具和更高的并发。推荐从官方学习网站上学习。不过，你一点scrapy资料都不知道也没有关系，读完本文一样能撸出来本篇文章是利用Scrapy扒取安智市场的app详情页，如点击查看和平精英，包括app名、版本号、图标icon、分类、时间、大小、下载量、作者、简介、更新说明、软件截图、精彩内容等，扒取的图片资源icon和市场展示图（app截图）下载到本地，并将所有数据存储到数据库。

参与评论您还未登录，请先登录后发表或查看评论

scrapy针对302请求的处理与重试配置

Jesse_Kyrie的博客

10-11

746

Scrapy默认会自动处理302重定向请求，其最大重定向次数为20。如果需要自定义重定向处理，可以通过下载中间件进行实现。默认情况下，Scrapy对请求会进行3次尝试，可在settings.py中修改RETRY_TIMES参数来调整重试次数。 Scrapy允许修改重试次数，最大值为20次。

Scrapy爬虫中处理重定向(301\302)问题

weixin_60770989的博客

04-24

414

自定义下载中间件可以让我们在遇到重定向时重新发起请求。# 当状态码为301或302时，重新发起请求# 其他状态码直接返回响应。

Scrapy处理302

weixin_49265805的博客

01-11

527

def start_requests(self): for i in self.start_urls: yield Request(i, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.parse) # 'dont_redirect': True是禁止重定向 # Req

scrapy 解决302重定向问题

迷途无归的博客

01-08

1万+

单独yield请求时禁用重定向 yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.pars...

scrapy框架开发爬虫实战——采集BOSS直聘信息【爬虫进阶】

万锦

10-11

4475

项目GitHub https://github.com/liuhf-jlu/scrapy-BOSS- 爬取任务时间：2019年8月28日爬取内容：BOSS直聘上的北京市python岗位的招聘信息链接：https://www.zhipin.com 创建项目 #创建项目 scrapy startproject BJ 创建爬虫 #进入项目目录下 cd BJ...

爬虫学习笔记（十一）—— Scrapy框架（六）：媒体管道

别呀的博客

07-17

359

一、媒体管道 1.1、媒体管道的特性媒体管道实现了以下特性: 避免重新下载最近下载的媒体指定存储位置（文件系统目录，Amazon S3 bucket，谷歌云存储bucket）图像管道具有一些额外的图像处理功能: 将所有下载的图片转换为通用格式(JPG)和模式(RGB) 生成缩略图检查图像的宽度/高度，进行最小尺寸过滤 ...

python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇（马蜂窝）

Kosmoo的博客

03-19

1万+

python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇（马蜂窝） 1. 背景相关基础知识点回顾： python3下使用requests实现模拟用户登录（马蜂窝）： http://blog.csdn.net/zwq912318834/article/details/79571110 2. 环境系统：win7 python 3.6.1 scrapy 1...

python中scrapy下面红线

热门推荐

菜鸡小白的成长记录

10-25

3万+

在使用Scrapy框架中URl被重定向，总是遇到这类问题: DEBUG: Redirecting (301/302) to <GET https://XXXX refer https://XXXX> 解决方式：在Scrapy中的Request中添加 dont_filter=True，因为Scrapy是默认过滤掉重复的请求URL，添加上参数之后即使被重定向了也能请求到正常的数据了。在Scrapy框架中的 settings.py文件里添加 HTTPERROR_ALLOWED_COD

scrapy框架重定向

qq_35354887的博客

09-03

478

转自https://stackoverflow.com/questions/39776377/cant-get-scrapy-to-parse-and-follow-301-302-redirects

【Scrapy】301、302重定向问题原因及解决办法

xiangxiang613的专栏

02-26

7435

Scrapy的301、302重定向问题原因及解决办法根据 HTTP标准，返回值为200-300之间的值为成功的response。 Scrapy运行爬虫过程中，目标网站返回301或302，而没有获取到想要的网页内容，表示请求失败。eg： 2019-02-13 17:18:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2019-02-13 17:18:33 [scrapy.downloaderm

scrapy处理重定向

wg5foc08的博客

08-30

7678

用scrapy爬取网页时出现302状态码，这是网页发生了重定向（在此不解释重定向），如何解决这个问题，只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。我是在爬取文件时初始网页发生重定向无法正常下载，后来解决了这个问题，在下载的时候发生了文件保存错误，路径不对，如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需...

Python爬虫重定向问题scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)

weixin_41586246的博客

09-07

954

爬虫重定向问题

python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题，显示301/302状态码

執筆冩回憶

11-24

1万+

1.什么是状态码301,302 301 Moved Permanently（永久重定向）被请求的资源已永久移动到新位置，并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。比如百度百科：http://baike.baidu.com/fenlei/%E6%94%BF%E6%B2%BB%E4%BA%BA%E7%89%A9 解决（一） 1.在Request中将scrapy的dont...

scrapy禁止重定向

07-28

- *1* *2* *3* [Scrapy爬虫遇见重定向301/302问题解决方法](https://blog.csdn.net/WuYan_Emperor/article/details/125540770)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_...