基于机器学习的Web管理后台识别方法探索

腾讯安全应急响应中心

于 2021-01-15 17:28:56 发布

阅读量733

点赞数

文章标签：算法大数据机器学习人工智能 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tencent_src/article/details/112792955

版权

本文探讨了利用机器学习识别Web管理后台的方法，传统关键字识别存在的问题及机器学习的优势。通过流量识别、URL扫描和机器学习模型，构建了一个高效识别系统，提升了识别准确性和灵活性。该系统采用XGBoost算法，结合word2vec预处理，有效识别管理后台，减少误报和漏报。

摘要由CSDN通过智能技术生成

文｜宙斯盾流量安全分析团队

晨晨、彦修

背景

长期以来，Web管理后台一直是攻击者觊觎的目标。部分信息安全意识薄弱的业务在未作任何安全加固（设置IP白名单、强口令、二次认证、验证码、请求频率审计等）的情况下直接将Web管理后台暴露到互联网，而管理后台由于本身的管理和敏感属性，外部一旦攻击成功，则极大可能造成数据泄露和服务器被入侵。

所以，Web管理后台的检测一直是Web漏洞扫描器规则中比较重要的组成部分，而传统识别方法基于关键字，误报和漏报的问题比较突出，规则一旦形成，除非人为更改，否则长期处于停滞状态，灵活性较差。此外目前大量网站基于动态网页进行展示，传统扫描器如果不进行JS渲染，则漏报严重；而逐个渲染，则时间花销大、成本又非常高。

于是我们将目光转向利用机器学习来识别Web管理后台。此外，笔者所在的团队是基于流量来进行安全分析建设工作的，所以如何利用流量的优势实现对Web管理后台的识别，也是本文一大重点。

传统 VS AI

在介绍具体机器学习的时候我们可以先思考一个非常简单的问题，怎么识别phpinfo页面呢？

答案很简单，我们通常会找一些页面特征作为规则去匹配响应。但是如果针对下图中的页面怎么判定是否为风险呢？

图片源自spring actuator

我们当然也可以选择其中一些字段作为关键字去匹配。但是随着业务拥抱开源，这些页面层出不穷，与此同时，他们的规则也不尽相同，如果每次都需要人工制定规则，其消耗无疑是巨大的。同理，Web管理后台的种类也纷繁复杂，这也就是我们为什么要利用机器学习来识别Web管理后台和高危页面的原因。

机器学习方案由于不依赖关键字，具有良好的泛化能力，能识别传统基于关键字方案漏报的部分；同时，模型可通过不断迭代自进化，灵活度高；在识别能力上，机器学习模型是通过综合学习多维特征，建立各维度关联关系，

最低0.47元/天解锁文章

腾讯安全应急响应中心

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。