论文简介
原文题目:Subspace clustering via graph auto-encoder network for unknown encrypted traffic recognition
中文题目:基于图自编码器网络的子空间聚类未知加密流量识别
发表期刊:Cybersecurity
发表年份:2022-12-03
作者:Ruipeng Yang
latex引用:
@article{yang2022subspace,
title={Subspace clustering via graph auto-encoder network for unknown encrypted traffic recognition},
author={Yang, Ruipeng and Yu, Aimin and Cai, Lijun and Meng, Dan},
journal={Cybersecurity},
volume={5},
number={1},
pages={1--15},
year={2022},
publisher={SpringerOpen}
}
摘要
流量加密给未知加密流量的识别带来了新的挑战。目前,机器学习是最常用的加密流量识别技术,但这种方法依赖于昂贵的先验标签信息。因此,我们提出了一种基于图自编码器网络(SCGAE)的子空间聚类方法来识别未知应用。SCGAE采用图形编解码器结构,可以综合利用特征信息和结构信息提取判别嵌入表示。此外,还引入了自监督模块,该模块使用聚类标签作为监督器来指导图编码器-解码器模块的学习。最后,通过自表达模块得到自表达系数矩阵,并将其映射到子空间进行聚类。结果表明,SCGAE在未知加密流量识别方面的性能优于所有基准模型。
存在的问题
大量未知应用的出现使得在有限的时间内获得标记良好的样品成本高昂。在缺乏先验信息的情况下,将许多应用程序映射到有限的应用程序类型是一项困难的任务。我们观察到这些基于特征的聚类方法通常只关注从流特征中提取有用的表示,很少考虑数据的结构。此外,目前基于图的聚类方法一般侧重于节点之间关系的表示,而不能有效地结合节点本身的特征信息。
论文贡献
- 提出了一个GAE模块,通过重构应用流特征和结构特征来挖掘交通数据中更多的判别信息。
- 引入自监督模块来限制聚类结果的分布一致性,有助于进一步提高未知加密流量识别的准确性。
- 我们用实际加密的网络流量数据验证了SCGAE方法,该方法优于最先进的流量识别方法。
论文解决上述问题的方法:
开发一种无监督学习方法(一种基于图自编码器网络(SCGAE)的子空间聚类方法),可以综合使用特征和结构信息来识别应用程序的类型。
论文的任务:
无监督方法
1. 设计概述
-
构造图
- (a)图中H、I、J、K为IP地址, f i f_i fi为流
- (b)图中,将(a)图中的边/点转为(b)图中的点/边,然后计算(b)图中每个相邻的节点的距离
- 保留(b)图中的每个节点的前 n k n_k nk个相近的节点,构成图©
-
模型结构
共包含四个模块:-
GAE模块:用于生成隐含向量;获取伪标签(因为无监督方法没有先验知识(标签),因此需要先生成一个伪标签用于帮助预测,具体体现在自监督模块)
损失函数:
-
自表达模块(self-expressive):获取自表达矩阵,用于聚类预测
损失函数:
-
聚类模块:根据自表达矩阵,生成亲和矩阵,然后使用谱聚类方法进行聚类流预测
-
自监督模块:使用GAE模块获得的隐含向量来获取伪标签,在结合聚类模块获得的预测标签,进行自监督学习。
损失函数:
总损失函数:
-
2. 实验
- 对比实验:
总结
论文内容
亮点:无监督方法
可读的引用文献
无监督聚类方法:
- Attributed graph clustering: a deep attentional embedding approach
- Structural deep clustering network
- Variations on the clustering algorithm birch