海量数据采集一般有哪些反爬策略？

最新推荐文章于 2024-03-30 09:34:15 发布

bug清理工

最新推荐文章于 2024-03-30 09:34:15 发布

阅读量348

点赞数 2

分类专栏：爬虫代理数据采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ssbt_2020/article/details/105683053

版权

爬虫代理同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

在海量数据采集中，很多人以为引入代理IP就行，其实不然。在大量高频的对目标网站进行请求，要面临的一个很大的问题就是如何突破目标网站的防爬机制，这直接影响到我们的爬取效率（头条系、阿里系、腾讯系无疑是防反爬技术的一梯队），而突破防爬机制引入代理IP池只是一种初级手段，必须配合我们的反爬策略：
１、没有对无头浏览器（selenium webdriver）做复杂反爬的网站，直接用程序控制无头浏览器不断的清空缓存和cookie，然后随机ua访问目标网站（中间尽量模拟人工，间隔），网站会通过js生成复杂的cookie，保持下这个cookie和对应的ua
1.1 建议对cookie+ua在程序内部做失败次数统计，超过一定失败次数后需要暂时停用这个cookie+ua组合，如果超过一个更高的阀值后，直接删除不适用该cookie+ua组合
1.2 控制好每组cookie+ua的使用频率，做到间隔和均匀
2、对于严格限制无头浏览器（阿里、点评），使用鼠标精灵等控制浏览器在虚拟机里面完整【1】里面的步骤
3、更加严格的网站（工商企业信息查询），需要模拟鼠标抖动等人工特性，进行采集
4、完全不允许匿名的网站，需要准备大量账号，登录后爬取。

在此也感谢亿牛云提供爬虫代理产品的测试支持！

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据采集一般有哪些反爬策略？

在海量数据采集中，很多人以为引入代理IP就行，其实不然。在大量高频的对目标网站进行请求，要面临的一个很大的问题就是如何突破目标网站的防爬机制，这直接影响到我们的爬取效率（头条系、阿里系、腾讯系无疑是防反爬技术的一梯队），而突破防爬机制引入代理IP池只是一种初级手段，必须配合我们的反爬策略：１、没有对无头浏览器（selenium webdriver）做复杂反爬的网站，直接用程序控制无头浏览器不断的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。