异常检测:
为特征x定义一个概率模型P(特征落在正常x范围的概率),如果 P(x)<= 就认为是异常的。
高斯/正太分布(Gaussian/Normal distribution):
Say . if x is a distributed gaussian with mean , variance .
, x服从高斯分布.
如下图,决定了轴线位置,决定钟形曲线的宽度:
特性:不管 和 怎么变化,钟形曲线下面的面积始终是1.
,
异常检测算法(Anomaly detection algorithm):
1.Choose features that you think might be indicative of anomalous examples.
2.Fit parameters
3.Given new example x, compute p(x):
Anomaly if p(x) <
如何评测异常检测算法:
1.将数据集按照6:2:2方式拆分成训练集、交叉验证集、测试集,如果有异常数据平分给后两者,训练集是不包含异常数据的。
2.通过训练集创建概率模型P,如上的方法。
3.对于交叉验证集和测试集:
4.通过计算F1-Score来选择一个好的
让数据看起来更像是高斯分布:
通过hist绘制直方图,开始x可能是这样的:
我们可以通过,下面的公式使得x更像是高斯分布: