Scrapy 中 SPIDER_MIDDLEWARES 和 DOWNLOADER_MIDDLEWARES 的区别

luoluosheng07

已于 2024-04-17 10:26:58 修改

阅读量453

点赞数 3

分类专栏： python 文章标签： scrapy

于 2024-04-17 10:26:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ljh574649119/article/details/137862484

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1. 下载中间件的方法

process_request(request，spider): 所有请求都会调用此方法
process_response(request, response, spider)：这里的参数比上面的多了response，肯定是用来处理response的
process_exception(request, exception, spider)：处理异常
from_crawler(cls, crawler)：从settings.py获取配置

2. 蜘蛛中间件的方法

process_spider_input(response, spider)：所有请求都会调用这个方法
process_spider_output(response, result, spider)：spider解析完response之后调用该方法，result就是解析的结果(是一个可迭代对象)，其中可能是items也可能是request对象
process_spider_exception(response, exception, spider)：处理异常
process_start_requests(start_requests, spider)：同process_spider_output，不过只处理spider中start_requests方法返回的结果
from_crawler(cls, crawler)：从settings.py获取配置

3. 区别

下载中间件是连通引擎和下载器的，所以如果修改请求只会影响下载器返回的结果，如果修改响应会影响 spider 处理；
而 spider 中间件是连通引擎和 spider 的，如果修改请求则会影响整个 scrapy 的请求，因为scrapy的所有请求都来自于 spider，当然包括调度器和下载器，如果修改响应，则只会影响蜘蛛的解析，因为响应是由引擎传递给蜘蛛的。

4. 使用

spider 中间件：

-- 一般用于操作 spider 返回的request，比如记录深度、丢弃非200状态码响应、丢弃非指定域名请求等；

-- 蜘蛛中间件一般不需要自己编写，使用内置的几个也足够了；

下载中间件：

-- 下载中间件用于操作向互联网发起请求的request和返回的response，比如修改请求头、修改响应、管理cookies、丢弃非200状态码响应、丢弃非指定域名请求等；

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

luoluosheng07 CSDN认证博客专家 CSDN认证企业博客

码龄14年

98: 原创

4万+: 周排名

2万+: 总排名

7万+: 访问

: 等级

1571: 积分

522: 粉丝

578: 获赞

23: 评论

508: 收藏

私信

关注

热门文章

分类专栏

git 5篇
mysql 7篇
nginx 5篇
linux 10篇
thinkphp8 8篇
PHP 24篇
redis 2篇
运维 5篇
sublime Text 1篇
python 13篇
flask 4篇
vue3 9篇
thinkphp5.1 6篇
jquery 8篇
uniapp 11篇
css 2篇
html 1篇

最新评论

uniapp ios云打包报错是什么原因？
weixin_50260818: 求解决方案
scrapy 使用Selenium与Scrapy处理动态加载网页内容的解决方法
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
php 获取客户端的真实ip地址
ha_lydms: 我很喜欢作者对于时事的评论，总是能够给出独到的见解。
mysql 启动指定pid 文件位置
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JavaScript 上次访问的url
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。