整个互联网的流量中,真人占比有多少?
80% ? 60% ? 50% ?
根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。
爬与反爬的斗争从未间断
恶意爬虫占比数据与 2013 年和 2014 年相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升,另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。
爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:
-
模仿真人行为
-
加载 Javascript 和外部资源
-
模拟 cookie 和 useragent
-
浏览器自动化操作
-
变化的 IP 地址池