反爬虫业务安全认知

最新推荐文章于 2022-10-24 10:38:34 发布

茶歇小栈

最新推荐文章于 2022-10-24 10:38:34 发布

阅读量361

点赞数

分类专栏：业务安全文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014031952/article/details/107219392

版权

本文探讨反爬虫系统如何解决流量分类问题，包括搜索引擎流量、爬虫流量和正常用户流量的区分。文章分析了现有反爬虫策略的局限性，并提出了一种新的问题抽象方式，通过访问者和资源的属性来描述爬虫风险，如黑名单、白名单、频率、变化率、关联关系和密度关系。最后，总结了反爬虫策略引擎的关键支持功能，强调理解业务对反爬虫防御的重要性。

摘要由CSDN通过智能技术生成

如果想要更好的解决一个问题，就是在不断重新认清问题，直到找到问题的本质。从纵深两个方向去了解，本篇主要是试图从横向去描述爬虫问题，也许这一次也只是一个中间过程，但是他是到达本质的必经之路。

我理解的反爬虫的纵深探寻方向：

说说横向风险分类问题，一个比较完备的反爬虫系统，最低需要覆盖已知的攻击场景，比如脚本，模拟器，云服务器，伪造设备，秒播 IP 等，但是这样的场景千千万万，而且在这个还不太成熟的风控分支中，这样的对抗方式总是滞后的，并且十分杂乱，你永远也不知道自己是否有信心解决这个问题，因为这个问题并没有穷举，成为了一个“无限问题”。

会不会是分类方法不对，导致这个问题不能被穷举？本文也只是尝试去从另一个角度描述反爬虫问题。

反爬虫系统解决的问题

整个反爬虫系统实际上需要解决流量的分类问题，也就是将原本混在一起的搜索引擎流量，爬虫流量，正常用户流量分开来处理，将搜索引擎流量当做正常的流量，将爬虫流量当做机器流量处置。

那么所有反爬虫风控功能支持都在围绕解决这个二分类问题：正常流量和恶意流量。

那么解决这个问题简单吗？不简单，第一你需要识别这个流量是什么分类，通常这个并不容易，主要是可信的策略有

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。