论文简介
原文题目:VT-GAT: A Novel VPN Encrypted Traffic Classification Model Based on Graph Attention Neural Network
中文题目:VT-GAT:一种新的基于图注意力神经网络的VPN加密流量分类模型
发表书籍:Collaborative Computing: Networking, Applications and Worksharing
发表年份:2022
作者:Hongbo Xu
latex引用:
@inproceedings{xu2022vt,
title={VT-GAT: A Novel VPN Encrypted Traffic Classification Model Based on Graph Attention Neural Network},
author={Xu, Hongbo and Li, Shuhao and Cheng, Zhenyu and Qin, Rui and Xie, Jiang and Sun, Peishuai},
booktitle={International Conference on Collaborative Computing: Networking, Applications and Worksharing},
pages={437--456},
year={2022},
organization={Springer}
}
摘要
虚拟专用网(VPN)技术目前广泛应用于远程办公等各种场景。随着代理技术的发展,VPN流量识别对网络安全和管理的重要性日益凸显。与应用分类等其他任务不同,VPN流量只有一个流问题。此外,加密技术的发展也给VPN流量识别带来了新的挑战。
为了解决上述问题,本文提出了一种基于图注意网络(GAT)的VPN流量图分类模型VT-GAT。与现有的VPN加密流分类技术相比,VT-GAT解决了以往技术忽略流量中包含的图连通性信息的问题。VT-GAT首先通过描述数据包和流级别的原始流量数据来构建流量行为图。然后结合图神经网络和注意机制自动提取交通图数据中的行为特征。在Datacon21数据集上的大量实验结果表明,VT-GAT在所有分类指标上都能达到99%以上。与现有的机器学习和深度学习方法相比,VT-GAT将F1-Score提高了约3.02%-63.55%。此外,VT-GAT在分类类别数量变化时仍保持良好的鲁棒性。这些结果证明了VT-GAT在VPN流量分类中的有效性。
存在的问题
- 当用户使用VPN应用进行身份混淆时,从流量中提取的流量数量会急剧下降。如图1所示,用户发送的数据包的服务器端IP地址和端口被VPN应用程序替换。因此,不能根据服务器IP地址和端口将VPN流量划分为多个流。这种现象被称为单一流问题
- 寻找实用且鲁棒的特征是解决单流问题的可行途径。我们注意到,以往的研究主要关注交通的时空特征。此外,流量隐含的图连接行为特征通常被忽略。仅使用传统的深度学习方法不能快速有效地从现有特征中提取流的连接行为特征。
论文贡献
- 提出了一种从VPN加密流量中提取流量行为图的方法。它可以将流量分类问题转化为图分类问题。通过实验验证,该方法能有效提高模型的分类精度。
- 提出了基于图注意力网络的VT-GAT模型。据我们所知,这是第一个使用图神经网络实现VPN流量分类的模型。VT-GAT将交通的时空特征与图的行为特征结合起来实现分类,弥补了现有技术的不足。此外,VT-GAT增强基于图注意机制对相邻节点的特征进行聚合,提高了模型的鲁棒性。
- 提出了一种适用于VPN加密流分类的流量图数据。基于VT-GAT模型实现了原型系统,并在最新发布的数据集Datacon21上进行了实验。
论文解决上述问题的方法:
提出了一种融合图行为特征和时空交通特征的图神经网络模型VT-GAT来解决上述问题。
论文的任务:
图分类
1. 方法
-
流量行为图构建
节点特征的提取:CICFlowMeter
- 聚合特征:这些特征是网络流中获得的流量的总体特征,包括总持续时间、总包数、总包长度等。
- 时间特征:主要包含与时间相关的原始特征和统计特征,如平均发送间隔时间、发送总间隔时间等。
- 统计特征:对报文大小(不含聚合特征)进行统计,包括每秒上行报文数、报文长度均值、报文长度标准差等。
- 内容特征:报文内容字段的特征,包括FIN报文数、SYN报文数、ACK报文数等。
边构建方法:
- 设定一个窗口 T T T,以及滑动间隔 M s M_s Ms,最终要得到n个窗口
- 对流序列 P P P进行滑动探测,例如初始化窗口下,得到的流序列为 O = ( O 1 , . . . , O m ) O=(O_1,...,O_m) O=(O1,...,Om)
- 对窗口内的流序列中的每个流进行遍历,以 O 1 O_1 O1举例,提取它的(sip,sport)和(dip,dport),如果顶点集合 V V V中不包括(sip,sport)或(dip,dport),就要放到对应的边权重矩阵中,并赋值为1,如果存在,就在现有值的情况下加1
- 在该滑动窗口下,针对收集好的顶点集合 V V V,边权重矩阵 D D D,边集合 E E E,构建图结构 g 1 g_1 g1。以此类推,获得所有的图结构, g 2 , g 3 , . . . , g n g_2,g_3,...,g_n g2,g3,...,gn
-
模型
GAT
2.实验
总结
工具
- CICFlowMeter
数据集
- ISCX VPN-nonVPN
- Datacon21