爬虫---代理的使用

最新推荐文章于 2024-05-27 08:52:59 发布

他是只猫

最新推荐文章于 2024-05-27 08:52:59 发布

阅读量662

点赞数 1

分类专栏：学python爬虫与实践文章标签： python 爬虫

本文链接：https://blog.csdn.net/suwuzs/article/details/119294400

版权

学python爬虫与实践专栏收录该内容

12 篇文章 9 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了爬虫在面对网站反爬策略时如何利用代理IP进行数据抓取。内容包括理解服务器因高频率请求封IP的问题，如何获取和设置代理，以及使用爬虫爬取代理网站以寻找可用代理。最后，文章提到了代理使用的法律风险，并建议非必要情况下避免使用。

摘要由CSDN通过智能技术生成

前言

我们在做爬虫的时候，在爬虫去数据的过程中，有时候遇到这样的情况：程序最开始抓取数据可以正常运行，拿到数据，一切看起来是那么美好，然而不一会功夫可能就出现错误，比如403Forbidden；但是过了一会爬虫又可以成功运行了，但是一会有出现这种情况。
出现这个现象的原因是网站采取了一些反爬虫的措施。服务器在检测到某个IP在单位时间内的请求次数过高，比如说，你1s内向服务器发送了1000次请求，这样服务器会判定当前访问为爬虫，直接拒绝服务。这个我们可以称之为封IP。一般服务器封IP会有个时间，即封掉你的IP一段时间，比如说10min，1h。
不过反过来想，既然服务器是检测我们单位时间内的发送请求的次数，那我们借助很多IP来发送请求是不是就可以了。这就是代理。
在这里插入图片描述
本来我们要用一个ip去发送大量的请求去获得数据，使用IP伪装，我们可以每个代理ip发送一个请求，这样就可以防止ip被封了。

一、获取代理

搜索引擎搜索代理，就会跳出来很多代理服务网站，网站上有很多免费代理。但是这些免费代理大多数情况下是不好用的，所以一般公司或者有需求的人员会选择购买付费代理。
在这里插入图片描述
在这个网站上我们来找一个免费代理来做一个测试。
用代理去访问百度&#

了解本专栏

超级会员免费看

他是只猫

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫---代理的使用

前言我们在做爬虫的时候，在爬虫去数据的过程中，有时候遇到这样的情况：程序最开始抓取数据可以正常运行，拿到数据，一切看起来是那么美好，然而不一会功夫可能就出现错误，比如403Forbidden；但是过了一会爬虫又可以成功运行了，但是一会有出现这种情况。出现这个现象的原因是网站采取了一些反爬虫的措施。服务器在检测到某个IP在单位时间内的请求次数过高，比如说，你1s内向服务器发送了1000次请求，这样服务器会判定当前访问为爬虫，直接拒绝服务。这个我们可以称之为封IP。一般服务器封IP会有个时间，即封掉你的IP
复制链接

扫一扫