GCNN Traffic Classification with Graph Neural Network
摘要
目前许多最先进的流分类器都是基于卷积网络等深度学习模型从报文种提取特征的。但是其不能够很好地提取数据包之间的组成以及因果关系,从而影响了不同流量类型的预测精度,泛化能力也不够。
本文在分组流上提出了一个链图模型,以保持分组流的链图组合序列。在自动提取特征的链图上构建一个图分类器。
本文的要点主要在两个方面:
- 对数据的处理:直接利用pcap文件作为输入数据,不进行截断,如长度不够则在后面补0。
- 分类模型:利用两层SGC,加上池化层、全连接层,组成一个自定义的模型进行标签预测。
介绍
由于如今流分类粒度越来越细,类型也越来越多,还需对恶意流量进行检测
目前有三类分类器:
- 基于静态特征:使用静态属性进行分类。例如基于端口号分类,HTTP协议为80,SSL为443等。
- 基于统计特征:对pcap对象进行分类。例如基于签名的方法将每个应用类型与流量样本中的统计签名相关联。基于流量的统计特征训练监督分类器,如流量大小、到达时间间隔的均值和标准差、子流量大小。
- 自动学习特征,直接训练深度神经网络模型
加密流量普及、NAT、动态端口等高级网格栈的复杂性,收集特征越来越困难。基于深度神经网络的方法假设输入是一个固定的欧几里得对象(一维或二维布局结构),但是流量本质上不是欧几里得结构。
本文无需统计特征,基于链图自动捕获结构和语义关系。
两个挑战:
- 构建链式图,把流量看作固定的一维或二维图像,以链式序列捕获交互过程。