【python大神之路】scrapy的中间件使用流程

最新推荐文章于 2023-07-05 15:06:18 发布

toom_dp2px

最新推荐文章于 2023-07-05 15:06:18 发布

阅读量349

点赞数

分类专栏： python 文章标签：中间件 python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cdkd123/article/details/127562772

版权

首先我们要知道scrapy的基本数据流向

scrapy 数据的基本流向

那个十字框架图我就不画了，数据处理是这样的：
spider -> 引擎-> 调度器 -> requests -> download下载器-> spider -> 引擎 -> pipline
spider指定url，给引擎，引擎让到调度器根据url生成request，丢给下载器；下载器生成response返回数据，数据再经过引擎丢给spider处理；处理完的数据需要保存，在由引擎丢给pipline，保存数据。

scrapy 设置代理

scrapy 设置免费代理

通常，如果不希望自己的ip被人察觉，我们也希望使用代理地址，去请求服务器。有许多免费网站提供免费ip。我们只需要写个中间件，拦截请求接口，给request对象设置proxy ip即可。

做法如下：

在setting.py 配置免费ip列表：

USER_AGENT_LIST = [
   '192.169.0.1:2031',
   '201.11.3.1:2022',

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。