Python3爬虫之Scrapy框架的下载器中间件

最新推荐文章于 2023-01-09 18:20:36 发布

JunSIr_#

最新推荐文章于 2023-01-09 18:20:36 发布

阅读量934

点赞数

文章标签： Python3 Python3网络爬虫 Scrapy 下载器中间件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JunSIrhl/article/details/102577470

版权

Python爬虫之Scrapy框架的下载器中间件

基本介绍

下载器中间键可以为我们设置多个代理ip与请求头，达到反反爬虫的目的

下面是scrapy为我们创建好的中间件的类

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z4OnHb5w-1571155786522)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571109201936.png)]$

下面是中间件中的下载器函数，我们主要在这个函数里面进行操作

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I4nXlVlG-1571155786523)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571109247040.png)]$

Process_request(self,request,spider)

参数

request:发送请求的request对象

spider:发送请求的spider对象
此方法若返回None，Scrapy将继续处理此Request，直到其他下载器中间件被调用
此方法若返回Response对象：不再返回下载器，直接返回给引擎
返回Request对象：使用现在返回的Request

图解

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jyc5xSHI-1571155786524)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571114253852.png)]$

Process_response(self,request,response,spider):

参数

request: request对象

response:被处理的response对象

返回值

返回response对象：会将这个对象按序传给其他中间件，最终经过引擎给到爬虫

返回request对象：下载器链接切断，返回的request重新被下载器调度，最终经过引擎给到爬虫

返回request对象：下载器链接切断，返回的request重新被下载器调度

##中间件应用

设置随机请求头

Python系列CSDN博客地址：

如需更系统学习，下面是博主关于Python爬虫的系列学习博客

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。