如何使用尽可能少的代理IP爬取尽可能多的网页资源

最新推荐文章于 2024-05-06 12:53:06 发布

__IProgrammer

最新推荐文章于 2024-05-06 12:53:06 发布

阅读量184

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang785994599/article/details/99976405

版权

爬虫专栏收录该内容

20 篇文章 13 订阅

订阅专栏

越来越多的网站采用了封（限制）IP的策略，单个IP访问过于频繁就会被献祭掉，但我们的IP数量是有限的，当遇到大型网站时，如果使用尽可能少的资源完成尽可能多的资源获取呢？（针对短效IP）

确定IP被封的条件，找出不被封的临界点

如果某网站的限制条件为：每0.5秒访问一次，连续访问100次就封禁，那么我设置成0.55秒访问一次，是否就可以绕过这个低级的反爬？实测是可行的，但这样做的网站很少，据说现在很多网站采用机器学习来鉴别人机，这种情况下又该如何处理？模拟人的访问特征？海量IP？从成本上而言，还是使用更多的IP更划算一些。

合适的并发量

如果目标网站不是通过单纯的频率来限制而是通过分析我们的行为来确认，那么我们即使加了采集间隔过了一会仍然会被认为是机器，这时候适合提升并发请求量，在其确认你身份前完成尽可能多的数据的采集。

如现在在做的某个网站采集，如果设置采集间隔并限制并发请求量，虽然可以保证IP不被封，但是速度大打折扣，后来索性加大了并发量并取消采集间隔，速度就提上来了，之前的速度为每分钟3000左右。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。