如果想要更好的解决一个问题,就是在不断重新认清问题,直到找到问题的本质。从纵深两个方向去了解,本篇主要是试图从横向去描述爬虫问题,也许这一次也只是一个中间过程,但是他是到达本质的必经之路。
我理解的反爬虫的纵深探寻方向:
说说横向风险分类问题,一个比较完备的反爬虫系统,最低需要覆盖已知的攻击场景,比如脚本,模拟器,云服务器,伪造设备,秒播 IP 等,但是这样的场景千千万万,而且在这个还不太成熟的风控分支中,这样的对抗方式总是滞后的,并且十分杂乱,你永远也不知道自己是否有信心解决这个问题,因为这个问题并没有穷举,成为了一个“无限问题”。
会不会是分类方法不对,导致这个问题不能被穷举?本文也只是尝试去从另一个角度描述反爬虫问题。
反爬虫系统解决的问题
整个反爬虫系统实际上需要解决流量的分类问题,也就是将原本混在一起的搜索引擎流量,爬虫流量,正常用户流量分开来处理,将搜索引擎流量当做正常的流量,将爬虫流量当做机器流量处置。
那么所有反爬虫风控功能支持都在围绕解决这个二分类问题:正常流量和恶意流量。
那么解决这个问题简单吗?不简单,第一你需要识别这个流量是什么分类,通常这个并不容易,主要是可信的策略有