一、问题背景
- 异常检测应用场景:欺诈检测、网络入侵检测、工业控制领域等。
- 目前存在的问题
- 如何对高维和多变量的数据进行无监督异常检测是一个挑战,传统的聚类算法,例如K-means,GMM,很难很好的应用到这类高维数据上。
- 目前的常用解决方法 传统的方法分两步,先对高维数据进行降维,将原始数据映射到低维度空间;然后在这个低维空间内做密度估计。
- 这两个步是相互独立的过程,高维数据降维后的表征很难保留足够多的关键信息。
- 因为这两步是相互独立的,最终可能导致模型陷入局部最优的境地,试想降维过程完全独立于后面密度估计过程,并不知道为后面的密度估计过程保留哪些关键信息
二、论文创新点
- 本论文提出的DAGMM模型,很巧妙的将降维过程(Deep AutoEncoding,以下简称DAE)和密度估计过程(Gaussian mixture model,以下简称GMM)有机的结合在一起,进行端到端的联合训练。避免了因两步独立导致模型陷入局部最优的境地。
- DAGMM模型有着强大的容量足以拟合高维复杂的数据,并且巧妙利用EM算法思想,来优化GMM模型,使得DAE与GMM可以联合训练,实验结果表明,DAGMM模型比state of art方法,在F1指标上提高了14个点,效果相当惊艳。