恶意爬虫这样窥探、爬取、威胁你的网站

整个互联网的流量中,真人占比有多少?

80% ? 60% ? 50% ?

根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。

爬与反爬的斗争从未间断

恶意爬虫占比数据与 2013 年和 2014 年相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升,另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。

爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:

  • 模仿真人行为

  • 加载 Javascript 和外部资源

  • 模拟 cookie 和 useragent

  • 浏览器自动化操作

  • 变化的 IP 地址池

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值