海量数据采集一般有哪些反爬策略?

在海量数据采集中,很多人以为引入代理IP就行,其实不然。在大量高频的对目标网站进行请求,要面临的一个很大的问题就是如何突破目标网站的防爬机制,这直接影响到我们的爬取效率(头条系、阿里系、腾讯系无疑是防反爬技术的一梯队),而突破防爬机制引入代理IP池只是一种初级手段,必须配合我们的反爬策略:
1、没有对无头浏览器(selenium webdriver)做复杂反爬的网站,直接用程序控制无头浏览器不断的清空缓存和cookie,然后随机ua访问目标网站(中间尽量模拟人工,间隔),网站会通过js生成复杂的cookie,保持下这个cookie和对应的ua
1.1 建议对cookie+ua在程序内部做失败次数统计,超过一定失败次数后需要暂时停用这个cookie+ua组合,如果超过一个更高的阀值后,直接删除不适用该cookie+ua组合
1.2 控制好每组cookie+ua的使用频率,做到间隔和均匀
2、对于严格限制无头浏览器(阿里、点评),使用鼠标精灵等控制浏览器在虚拟机里面完整【1】里面的步骤
3、更加严格的网站(工商企业信息查询),需要模拟鼠标抖动等人工特性,进行采集
4、完全不允许匿名的网站,需要准备大量账号,登录后爬取。

在此也感谢亿牛云提供爬虫代理产品的测试支持!

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值