本文整理自我在isc 2022(第十届互联网安全大会)上的主题演讲:
元宇宙视频会议链接:https://isc.n.cn/?sid=785016&cid=iscyY060 点击我要上isc展台。
视频链接:https://mp.weixin.qq.com/s/Sme4gLnEHyxyhRSN2RUqCA
相关资料收集:https://github.com/LiaoWenzhe/dataRisk-detection-resources
议题简介:
随着企业信息化建设的不断普及,业务服务激增。API作为大数据时代业务数据交换的流行架构模式,围绕着API展开的攻击日益频繁和多样,因此API安全在近几年逐渐成为各行业安全领域的重要关注点。
一方面,企业API数量与日俱增,使用场景、交互逻辑日益复杂,另一方面,黑灰产攻击手段复杂多变、日新月异。虽然传统以正则匹配和专家经验为核心的规则策略在WEB应用安全领域取得了一定效果,但在逻辑攻击、业务安全等方向始终差强人意。自大数据时代开始,AI技术得到突破性的发展,以深度学习为代表的AI技术在各领域得到了非常广泛的应用。同样,在安全领域,下一个时代的安全攻防对抗将以数据为基础,以算法为核心。因此我们借助AI技术探索挖掘各类复杂业务场景下的API访问模式,计算评估异常行为,定位并解释恶意攻击,帮助提升API全生命周期的风控能力。
整个智能风险感知建模流程首先进行流量数据的处理,例如数据预处理,特征工程等,然后基于算法模型进行风险感知。值得注意的是,模型也有一系列的全生命周期管理:模型评估,解释,监控,更新,这样才能保证整个算法建模流程的畅通。
图(Graph)是由顶点的有穷非空集合和顶点之间边的集合组成,表示为G(V, E)。
图数据的典型应用场景比如网页链接关系、社交网络、商品推荐等。在安全领域我们可以进行风险挖掘,并进行安全可视化分析。
常见的图计算算法举例: 社区发现-标签传播算法(LPA)
由于攻击者受资源约束(例如服务器和IP地址)和任务约束(例如要在一定时间内完成),资源/任务维度的同步以及和正常行为的偏离很难规避,因此可以利用图计算进行异常点/边/子图的挖掘进行风险的感知。
如下图所示,利用API行为流量进行图计算建模后,在图结构中存在异常的图结构,这些异常的点/边/子图是风险的可能性较高。
某黑灰产团伙持续数月内不断变换几万个代理IP,爬取某数据商的企业工商信息。
某黑产团伙通过数十个IP,利用系统未鉴权接口,通过数万个身份证号码遍历获取个人数据。
.................
传统规则引擎基本都是基于专家经验设定,不仅严重依赖专家经验,而且庞大的规则库难以维护,同时对于未知的高级攻击也成效甚微。
基于以上痛点,可利用算法模型在不同攻防场景向运营人员智能推荐不同规则,并随着时间推移和攻防的升级智能迭代规则策略,打造智能规则引擎,
基于历史IP行为数据,利用推荐算法/关联规则算法进行规则的智能推荐和迭代。
根据不同的攻防场景,算法能够智能推荐不同类型的规则。
对于同样类型的攻击,随着时间变化,规则也会智能迭代。
智能风险运营基于之前风险感知流程产出的风险,算法进行风险处置后,根据优先级对风险进行智能解释。
很多种不同攻击方式会触发大量事件级别异常告警,形成风险风暴,例如登录爆破、资产扫描、漏洞扫描、数据爬虫等等。因此我们可以通过异常检测算法进行风险风暴的检测,并用算法(例如聚类)进行风险的分类。
在分类完成后,我们可以利用算法先进行风险的分级(例如转换成机器学习中的多分类问题),然后根据分级结果对一个类别中的核心风险(例如聚类核心)进行推送,以提升运营效率。
传统的风险异常都是基于安全运营专家的经验进行解释,但是这种方式不仅极度依赖人为经验,而且费时费力。因此设计一系列根因分析算法为各种风险类型提供解释,对安全运营者进行风险分析大有帮助。
shap算法的核心思想是计算特征对模型输出的贡献,再从局部和全局两个层面对算法模型进行解释。简单来说就是shap算法基于统计原理去衡量特征对模型输出的贡献。
如下图所示,我们利用shap算法发现某个风险ip主要是UA类型和访问去重数据量过多导致出现了风险告警。
如右图所示,多维下钻算法的原理是当出现异常能够从多个维度(例如UA类型,地理位置,设备型号等等)下钻的快速精准根因定位。
如下图所示,是用根因分析算法快速定位到的某政企部分内网IP在2022年6月1号凌晨1点-2点突然对某敏感数据接口发起大量访问获利。
传统以正则匹配和专家经验为核心的规则策略在WEB应用安全领域取得了一定效果,但在逻辑攻击、业务安全,新威胁发现等方向上始终差强人意。大数据时代,AI算法有望在这些领域大放光彩。
如何在大量风险告警中快速定位真实风险并精准解释是安全攻防场景绕不开的问题,应用算法进行风险分类分级,并进行根因定位对安全运营大有帮助。
由于数据安全领域难以获得数据标注,以及黑客/黑灰产攻击手段不断进阶升级,知识图谱/迁移学习/强化学习等等前沿领域在数据安全领域大有用武之地。
在公安知识图谱领域,通过犯罪者的某一种媒介(例如血缘/朋友/位置)可以构建知识图谱,通过知识推理进行其他疑似罪犯的发现。
同样的,在API安全中API也是一种重要的媒介,能否通过API流量构建知识图谱,进行风险的推理?
在推荐系统中,通过用户的历史购物行为,可以搭建行为图谱,利用Link Prediction技术进行用户购物行为预测,然后给用户推销商品。
同样的,在API安全中,能否通过API流量搭建行为图谱,并用Link Prediction/因果推断技术进行风险的预测,对风险提前进行防范?