APT攻击检测的主要困难:攻击方法的演变、缺乏公布的APT攻击数据库。
APT攻击主要阶段:
- 间谍活动(收集信息)
- 攻击和升级特权
- 信息盗窃
- 跟踪删除
根据APT本身的生命周期和阶段,有三种基本的检测apt攻击的方法
- 监控方法
- APT检测方法
- 异常检测
- 机器学习【原因:数据处理平台的发展】
效率低的原因:APT攻击缺乏公开的数据集、数据不均衡、使用标准吗协议
- 机器学习【原因:数据处理平台的发展】
- 模式匹配
- 图分析
- 异常检测
- 欺骗方法
本文提出的新方法
具体步骤:
- 利用CICFlowMeter(网络流量提取工具)将网络流量分为源IP和目的IP对。
- 将整个按照IP分组的流组合深度学习模型中提取IP最基本的特征,区分正常ip和APTip。
- 根据新提取的特征进行IP分类检测。
MLP模型分析
为了使用MLP对流量网络上的APT攻击IP和正常IP进行分类,要提取IP的代表性特征来输入分类模型。流的特性被完全提取出来,并将它们加在一起形成IP的代表性特征向量。
IP特征提取算法阶段:
- 构建IP特征表:检查可用流。
- 公式化IP特征提取。
- 判断结果。
Graph convolutional networks(图卷积)
如果一个IP被认为是一个顶点,那么应该有一条边来连接两个顶点,这两个顶点是流的SrcIP和DstIP。因此,将创建一个图形来显示数据集中的所有IP。然后,通过将特征矩阵累加在一起,使用特征矩阵来呈现基于特征提取算法的IP信息。与手动编写信息相比,此过程有助于最大限度地减少信息损失。
长短期记忆和图卷积网络的组合模型
基于MLP和GCN构成IP特征的主要缺点是没有利用时间索引。这里可以使用BiLSTM以重建IP的信息。
结论
- BiLSTM-GCN模型检测APT攻击准确度高(即使数据集样本不平衡),BiLSTM-GCN组合模型在所有性能测量上都优于其他传统的机器学习模型,即MLP和GCN模型。
- 组合模型的效果要优于单独的深度学习网络
APT检测的前人工作
- 深度学习堆栈模型的提出:提出五层深度学习模型,其中包括可以在每一层中使用的算法,特别在第四层中介绍了一些深度学习算法(RNN/LSTM/GNN/GDB)
- 提出在线无监督深度学习系统,用于过滤系统日志数据以便分析APT攻击系统。主要是结合RNN.LSTM深度学习算法检测
- 提出CNN深度学习算法检测基于DNS活动的APT攻击,提取了三个主要特征组:基于域名,基于DNS请求行为,基于响应行为的关系特征
- 基于移动DNS日志的APT攻击检测方法,通过4个特征组:DNS请求、应答特征、基于域的特征,基于时间的特征,基于whois的特征
- 基于网络流量的三个特征组检测和监控APT攻击:域名词汇特征,排序功能,DNS查询功能
- 利用APT域和APT ip之间的相关性分析检测APT攻击方法—基于机器学习算法检测出APT域,并将这些域作为特征与其他IP行为相结合作为检测APT攻击的基础(该实验部分表明使用分析域和IP之间的相关性技术比单独的技术有更高的效率)