Feature analysis of encrypted malicious traffic
18年发表于ESWA的一篇论文
论文链接:https://www.sciencedirect.com/science/article/pii/S095741741930082X
基于模型自适应和机器学习方法的加密恶意流量检测相关的论文。
论文主旨
这篇论文主要重点在于通过机器学习分类器来选择对应的特征属性,而非先通过特征选择器选择特征,再来训练分类器得到分类结果。基于模型自适应的方法来进行特征选择过程。
背景
背景在于,目前机器学习方法被广泛应用到加密流量领域,用于加密流量的识别和分类。除了机器学习之外,深度学习也被应用到该领域。两种方法的区别主要在于,对于特征的建模存在明显的差异性,对于特征提取的方式也完全不同。首先是机器学习的方法,要设计合理有效的特征集作为机器学习分类器的训练数据。如何设计一个能够表征网络流量的特征集是目前非常困难的问题。通常需要提取大量的时空,背景和证书等特征作为初始的特征集,但是特征集里面的特征的冗余度和不相关性比较高,会影响分类准确率。所以需要精简特征集,构建最优特征子集。当前流行的方法在于通过机器学习的特征选择的方法,例如相关性,信息增益,一致性等等。但是度量标准比较单一,很难对特征集进行整体性评估。从集成学习的思想上出发,也出现了通过选择性集成的方法来进行特征选择,在于将多种特征选择器集成,通过多种度量标准,递归的减少特征,构建最优特征子集。但是选择性集成的方法通常通过一种分类器的分类准确率作为终止准则,这使得构建的最优特征子集并不能保证其在其他分类器也能达到最好的效果,