Anomaly Detection(异常检测)
-
应用场景:金融诈骗中用户异常;飞机引擎制造残次品;监控电脑的流量
-
anomaly detection 具体算法:
选择能代表异常的特征xi,计算其高斯分布。新的样本计算其p(x)<epsilon??
-
评估
还是分为三个集:训练集,交叉验证集,测试集
评估的时候。因为错误的样本数可能很小,所以引用了P/R(查准率,召回率)和F=2pr/(r+p).
-
Anomaly detection 和监督学习的区别
异常检测有大量的负样本(指的是正常样本),很少的正样本
监督学习有很多可以预知类型的错误样本。比如垃圾邮件里有account ,money...,但是飞机引擎的错误样本不好判断错误特征,所以应该用异常检测。
-
怎么选feature啊??
首先,把数据分布都搞成高斯分布的感觉。
手动选异常feature。刚开始这些错误样本可能被淹没了,没被检测出来,这个 时候可以选择组合一些feature,生成新的feature。
-
Multivariate Gaussian Distribution(Optimal)多元高斯分布
两个feature在二维上的分布不是圆形的,For example:
也就是说,这些feature的分布是有关联的,所以不能单独计算各个feature的分布了,应该合起来算。这个时候,协方差矩阵就派上用场了。协方差矩阵说明了feature之间的相关性。以下是一些例子
具体的多元高斯分布的算法如下图,基本和高斯的一样,就是PDF不一样
-
多元高斯和原来高斯模型的区别
多元高斯可以自动捕捉特征,但是比较时间成本高,而且要满足m>10n;原模型使用的范围广,cheaper,可以手动自增feature。原模型可看作多元的特殊情况,即协方差矩阵只有主对角线有值,上下三角阵都是0.