【论文阅读】A communication-channel-based method for detecting deeply camouflaged malicious traffic

迷人的派大星

于 2022-05-18 23:23:19 发布

阅读量334

点赞数 2

分类专栏：流量分类机器学习 paper 文章标签：机器学习安全 paper

本文链接：https://blog.csdn.net/airenKKK/article/details/124852730

版权

机器学习同时被 3 个专栏收录

16 篇文章 4 订阅

订阅专栏

流量分类

13 篇文章 16 订阅

订阅专栏

paper

9 篇文章 2 订阅

订阅专栏

原文标题：A communication-channel-based method for detecting deeply camouflaged
malicious traffic
作者：Yong Fang，Kai Li，Rong feng Zheng，Shan Liao，Yue Wang
发表：Computer Networks 2021
原文链接：https://www.sciencedirect.com/science/article/pii/S138912862100311X
中文标题：一种基于通信通道的深度伪装恶意流量检测方法

1 Motivation

作者提出了一种 在通信信道级（不同于大家普遍采用的包级或流级，在后面会详细介绍文中对通信信道的定义） 对恶意 TLS 流量进行检测的新方法。对比实验结果表明，与其他最先进的分类方法相比，该方法在不同数据集上具有更稳定的检测效果，准确率为 97.65%，F1-score 更高。

2 主要工作

与传统的基于数据包和基于流的检测方法相比，本文提出了一种基于通信通道的新型恶意软件TLS流量检测方法，该方法在不同数据集上显示出更高的稳定性。
提出了一种结合遗传算法（GA）的特征选择方法，将特征维数降低了64%，准确率提高了1.5%，FPR降低了1.3%。
对深度伪装的恶意软件TLS流量数据集的综合比较实验结果表明，该方法的准确率比基于深度学习的对比方法的准确率高0.9%。此外，所提出的方法将 FPR 降低了 8.11%。

与相关研究的对比：
在这里插入图片描述
Notes：其中TO代表流量对象，E代表是否支持加密流量，FS代表是否进行特征选择。 ×和√代表对应栏是否满足条件。类别栏中的五种方法分别是统计分析（SA）方法、基于统计特征（SF）的方法、基于握手特征（HF）的方法、基于深度学习（DL）的方法和本文提出的方法。

3 数据集

在这里插入图片描述
作者使用的恶意软件 TLS 流量来自三个公共数据集：恶意软件流量 (MT)、加拿大网络安全研究所 (CIC) 恶意软件数据库和 Stratosphere 入侵防御系统 (SIPS) 恶意软件数据库。需要强调的是，作者在取其他数据集的恶意流量时，只取了目的端口为443的HTTPS流量（作者主要关注TLS）。

良性流量数据集来自于作者实验室网络环境中收集 TLS 流量。

最后，总共获得了 1004843 个 TLS 流和 10835 个良性 TLS 通信通道。

MT 和 SIPS 数据集包含各种恶意软件系列，包括：Dridex、Emotet、Hancitor、Trickbot、Kazy 和 Zeus。 CIC 数据集收集了多个 Android 恶意软件类别，例如后门、勒索软件、木马银行家和木马间谍。详细信息可在这些数据集的官方网站上找到。此外，MT 和 SIPS 中的流量主要产生于桌面系统，主要是 Windows 操作系统，而 CIC 中的流量主要产生于移动系统，主要是 Android 系统。两种流量最大的区别在于TLS握手信息。

4 方法论

4.1 模型总体结构：

在这里插入图片描述

4.2 “通信通道”的定义

这是本文的核心概念，如图所示：
在这里插入图片描述
与传统的流的区别是，通道可以有多个流，只要它们的目的地址相同（目的端口都是443，前文已解释）。 至于为什么要采用通道，作者的解释如下（感觉挺有道理）：

在本研究中，我们假设单个流可能无法暴露恶意行为，因此，我们通过流聚合获得足够的上下文信息。聚合的通信通道可以看作是同一应用程序产生的流量。由于通信通道弱化了单个流的特性，如果大部分流都是恶意的，那么应该检测到通信通道是恶意的。因为恶意软件倾向于减少不必要的网络行为以确保它不被检测到，所以恶意软件通信通道中的大部分流应该是恶意的。对于良性信道，所有方法都不可避免地会引发误报。当一个良性流被基于流的方法识别为恶意时，由于通道中的大部分流都是良性的，基于通道的方法有能力避免这种误报。

4.3 “深度伪装恶意流量”定义

下图展示了来自一般恶意流量（MT 和 SIPS ）、良性流量和 CIC 的流样本的 TLS 握手包中五个字段的值，每种类型有 1000 个样本。图中所示的五个握手字段是客户端问候长度（CHL）、客户端密码套件号（CCSN）、客户端扩展号（CEN）、服务器扩展号（SEN）和证书号（CN）。横坐标代表各个字段的不同取值，纵坐标代表取值在相应类型的流量样本中所占的比例。可以看出，一般恶意流量与良性流量存在显着差异，但CIC中的流量样本与良性流量具有较高的相似度，符合我们对深度伪装恶意流量的定义。因此，在我们的实验中，我们将 CIC 数据集视为经过深度伪装的 TLS 恶意流量。
在这里插入图片描述

4.4 特征选择

特征集共三类 564 个特征：DFs、TLS 握手字段的 CFs 和用于恶意软件 TLS 流量检测的 SFs。

DFs示例：该特征用来描述通信信道内TLS流的有效载荷分布。例如：
CFs示例：
SFs示例：

4.5 特征降维（改进的遗传算法GA）

原GA算法：在这里插入图片描述
本文改进：

5 实验 & 评估

5.1 实验平台配置

在这里插入图片描述

5.2 所有对比实验

作者设计了一组变量对比实验，参数如下：
在这里插入图片描述
SVM、kNN、RF、MLP算法的实验对比结果如下图。作者还测试了如不同核函数下的SVM，KNN的不同k取值等，这里不详细介绍。

不同特征的组合下的ACC、FPR、F1指标：

值得一提的是，作者还测试了通道内TLS流数量对模型性能的影响，如下图所示：
在这里插入图片描述
与一些相关工作结果对比如下图。因为先前的工作没有基于通道的，所以在其他实验上，只要通道内有一个流为恶意流，作者就将其判断为恶意。

6 总结

作者认为单个数据包或流中包含的有限信息不能彻底反映加密流量的恶意行为，所以本文提出了“通道”的概念，在更长的时间窗口内提取特征来检测恶意流量，经过实验也取得了比较好的结果。但是也存在着一些不足，比如实时性不够，特征集不一定是全局最优子集以及不能检测0-day攻击等。

迷人的派大星

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】A communication-channel-based method for detecting deeply camouflaged malicious traffic

原文标题：A communication-channel-based method for detecting deeply camouflagedmalicious traffic作者：Yong Fang，Kai Li，Rong feng Zheng，Shan Liao，Yue Wang发表：Computer Networks 2021原文链接：https://www.sciencedirect.com/science/article/pii/S138912862100311X中文标题：一种基.
复制链接

扫一扫