行为画像的鲁棒性

最新推荐文章于 2023-08-07 17:26:40 发布

m0_74079109

最新推荐文章于 2023-08-07 17:26:40 发布

阅读量177

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_74079109/article/details/127230716

版权

攻击检测与分类

4.2.3.1　定义内涵

攻击检测与分类的含义是针对各类网络实体及其行为，通过有监督或半监督学习的方式，实现攻击行为的识别，并区分攻击的技战术类型。

4.2.3.2　技术背景

攻击检测与分类是智能化技术与网络安全
数据最早结合的应用场景之一。在入侵检测、Web 攻击检测、恶意样本及其家族分类、恶意流量检测、恶意邮件识别等多种场景中，为了应对爆炸式增长的数据规模及攻击模式，弥补传统专家规则在时效性、准确性、覆盖率上的不足，数据驱动的检测与分类成为关键补充。 4.2.3.3　思路方案

攻击检测与分类的关键是融合数据特性的算法建模。网络安全领域的算法建模相对于其他产业有一定的后发优势，可根据所处理数据的特性，如事件序列数据、时序数据、文本数据、实体关联图数据等，借鉴相关领域的成熟分析方法
与思路。比较经典的方法，有基于集成模型和动静态特征集实现的恶意软件家族分类；基于 CNN+LSTM和流量数据包、数据流多层次特征的恶意（加密）流量分类；基于图表示学习和进程调用关系的无文件 APT攻击检测等等，不一而足。如图 19 所示，借鉴目标检测中定位、识别的两阶段识别方法，研究者能够以可解释的方式有效识别不同类型的 Web 攻击 [25]。参考 ATT&CK 模型，现阶段包括终端、网络、文件等多源、多维度的二十余类数据的采集，给威胁分析带来全新的分析机遇。在有效数据标注的基础上，准确的学习攻击样本与正常样本之间的关键模式已不再是难事。
4.2.3.4　关键挑战

检测与分类的关键在于高质量、有标签的数据集。除此之外，建模过程需要应对网络安全数据的分布的不一致性
。主要挑战总结如下：
高质量
数据标注
这是决定有监督学习领域技术成败的关键因素之一。攻击样本标签化和数据积累一方面依赖研究积累，例如企业在样本研究中的样本分析结果；另一方面，攻击靶场中的自动化
攻击模拟能够加速标签数据的收集过程。
训练数据的局限性

攻防博弈持续升级，决定了训练样本空间只能覆盖有限已知攻击类型的已知实现手段。这种空间分布不一致性导致训练模型上线后分类和检测性能迅速衰减的困境。

复杂的数据编码、混淆、加密

攻击者的高对抗性，例如自定义数据编码、对抗性混淆、隐匿通信等等，体现在数据上是难解析、难识别、难定位。许多经典智能算法无法直接应用于安全数据挖掘。无视安全语义的、端到端的统计学习模型已被证明无法有效应用在安全场景下。

异常行为分析

4.2.4.1　定义内涵

异常行为分析的含义是构建多层次网络实体的行为画像，识别偏离正常行为基线的行为模式，捕获、召回潜在威胁线索与攻击行为。

4.2.4.2　技术背景

威胁狩猎的关键任务之一是发现威胁线索，从线索入手顺藤摸瓜，以识别攻击者攻击意图，还原、预测完整的攻击者行为序列。然而，高级威胁具有低频性、隐匿性、对抗性，无文件攻击、隐蔽信道等攻击技术已成为攻击者突破防御措施的重要手段。然而传统静态指纹规则驱动的检测方法依赖专家经验，有监督的威胁检测与分类方法对训练数据的采集、标注要求较为苛刻，以上两种经典方案主要针对已知威胁检测，同时在动态对抗环境下检测效果不理想。

4.2.4.3　思路方案

异常行为检测的关键是正常行为模式建模与离群（异常）点检测算法设计。行为分析的主体是网络环境下的各类实体，包括系统相关的（进程、网络、文件等）、应用相关的（API 调用、业务数据流等）、用户相关的（登录、访问等）等多维度、多层次可观测数据源。针对任何一类实体行为数据的建模，可对应一种具体的威胁分析场景。行为画像建模的关键在于通过统计建模、机器学习、策略抽象的方式，识别实体正常行为的关键参数与结构。常用的技术包括频率统计、聚类、编解码器、时序模型、隐马尔科夫建模等。在行为画像模型的基础上，对动态输入的未知行为执行离群点检测。离群点或异常点，指在数据模式中与大多数据点特征偏离较远的点。离群点的检测技术实现基于行为画像模型的构建方式。从数据特征建模的角度来看，主要包括基于距离的方法、基于密度的方法、基于统计阈值的方法、基于信息熵的方法、基于图的方法等等。不同的场景下，异常行为分析的数据粒度可能不同，整体来看，行为分析具有较强的环境自应性，并且不依赖特征指纹与恶意样本，能够有效召回不同网络环境、不同攻防周期内的异常行为，是对传统静态的、针对已知威胁检测的有效补充。

用户及实体行为分析 UEBA技术的核心实现就是异常行为分析。行为分析是分析攻击者战术、技术、过程（Tactics, Techniques, and Procedures, TTPs）的基础，是一个动态分析过程。分析中实体（包括 UEBA中的用户与实体）的选择，决定了分析场景与数据采集的粒度。以图 20 为例，通过异常进程行为分析技术来实现对 ATT&CK矩阵中的 T1055 进程注入（Process Injection）这一攻击技术的检测 [26]。该方案通过采集终端侧的进程行为数据，构建进程调用依赖图（Process Provenance Graph）。基于异常共现频率分数实现图上异常路径特征取，进而通过语言模型完成进程实体序列的向量化表示，实现进程异常派生关系的识别与检测。该方案不依赖任何进程黑白名单、进程调用特征，仅通过进程的历史调用模式完成隐匿恶意文件的动态行为分析。

4.2.4.4　关键挑战

异常行为分析是典型的数据驱动威胁狩猎方法。不同于规则驱动和样本驱动的检测，异常检测方法对数据有很强的敏感性，并且整体缺乏安全语义支撑，异常检测结果误报率较高。以下总结技术实现的关键挑战。

行为画像的鲁棒性

网络空间数据的画像面临数据噪声难识别、行为模式混杂、缺乏稳定性等多因素的技术难题。然而，异常检测的关键在于对正常模式的精确建模，所采用的模型、算法缺乏鲁棒性将导致后续的异常检测性能大幅衰减，误报率大幅提升。

异常检测的可解释性

离群点、异常点检测方法普遍基于高维度数据特征。抽象特征、黑盒模型所产生的异常判断难以被运营人员所理解，将限制异常行为分析结果的可信度、可用性。

阈值判断的自适应性

影响误报率的另一关键因素，是异常检测模型的阈值设置。当前，离群点的检测仍然依赖关于“偏离阈值”的先验知识。偏离阈值可以是距离、密度、关联度等与数据结构、模型算法相关的经验参数。宽松的阈值设置会导致系统触发大量非威胁相关的误报，严苛的阈值可能导致攻击事件漏报。根据环境动态变化自适应、自动化调整参数阈值，才能合理平衡指定场景下的误报代价与漏报风险。