Deep Learning for Encrypted Traffic Classification:An Overview
常用流量解析方法主要有四种:
1.端口号解析
2.DPI技术
3.统计特征/时序特征 + 机器学习
4.时空特征 + 深度学习
5.其他特征 +深度学习(待拓展)
第一种端口号解析的方法,是最早应用于流量解析的方法,但由于部分应用会使用不常见的端口号以及端口伪装等问题,准确率不高。
第二种DPI的方法,是目前最常见的应用于流量分类的方法,即通过分析载荷的相关字段,解析流量类别。但缺点是不能应用于加密流量。
第三种统计特征/时序特征+机器学习的方法。统计了大量的数据流和数据包特征作为特征集,其中许多特征并不能影响分类效果,但是如果特征集太小,又不能应用于机器学习的方法中。分类效果有局限性。
第四种时空特征+深度学习,将时空特征映射到图片形式,作为深度学习模型的输入。
在处理流量分类问题时,首先第一点是应该明白需要分类的目标(Problem Formulation),即我们要干什么?
1.进行协议分类,分析是HTTPS,还是SSH
2.进行应用分类,分析该应用是Skype还是Wechat产生的
3.进行形态分类ÿ