requests使用代理IP

最新推荐文章于 2023-10-29 20:34:05 发布

J符离

最新推荐文章于 2023-10-29 20:34:05 发布

阅读量4.8k

点赞数 3

分类专栏：爬虫文章标签： requests 代理IP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22592457/article/details/100081855

版权

本文介绍了为何在爬虫中使用代理IP来规避网站的反爬机制，解释了代理IP的工作原理，并详细说明了如何在requests库中设置和使用代理IP，包括获取本机IP、寻找免费代理IP资源以及示例代码。

摘要由CSDN通过智能技术生成

一、为什么使用代理IP

我们去爬取一些网站信息时，会把我们机器的IP也传递给目标网站，如果目标网站设置了反扒机制，比如检测单个IP的访问频率，如果频率超过某个阀值，则直接拒绝访问。举个例子，安居客网设定，单个IP一秒的访问频率不能超过30次，如果超过30次，拒绝该IP的访问需求，如果是手动点击访问，一秒钟30次确实足够了，但是如果是爬虫，呵呵呵，很简单就超过这个频率了。

针对上面说的问题，为了能正常爬取数据，只有2个办法，一是降低爬取速度，将其控制在网站规定的阀值范围内（这个就不考虑了，写爬虫就是为了速度，现在主动减速，还写爬虫干嘛？）；二是切换IP访问，可以在固定时间段后，通过切换IP继续爬取，这样即使之前爬取过快被封IP了，我换一个就是了。

二、使用代理IP的原理

代理IP使用的原理如下图，本来爬虫是直接从本机到目标网站的，现在多了一步，先到代理机，再由代理机去访问目标网站，这样目标网站就不知道我们本机的信息，如果封IP，封的也是代理机的IP，跟本机无关。

当然，使用代理IP的代价是时间的消耗，直观上看，我们的访问多了中间的传导，肯定是会多花一些时间的。

三、requests使用代理IP的方法

最低0.47元/天解锁文章

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。