什么是异常
查看未标记的正常事件数据集从而学会检测异常或异常事件发出危险信号。
一些数据,从x[1~m]通常假设这m个样本都是正常的,然后通过异常检测算法检测一个新样本数据是否异常。
异常检测算法
通过给定无标签的数据集,我们对数据集进行建模即p(x),也就是说我们对x的分布概率建模,其中x为一系列特征量,所以当对于新的例子,如果p(x_test)<阈值我们就将它标记为异常,反之则正常。
密度估计
这个分布项 p(x) 的估计问题称作是密度估计问题。m个训练集,n为每个样本的特征量。
我们处理异常检测的方法是,我们要用数据集建立起概率模型 p(x),我们要试图解决出哪些特征量出现的概率比较高,哪些特征量的出现概率比较低。因此,x 就会是个向量,然后我们就要建立模型 p(x) 作为 x1 的概率,这是 x 的第一个组成部分,并用它乘以 x2 的概率,这是第二个特征量的概率,再乘以第三个特征量的概率,等等,直到最后一个特征量 xn。
正态分布-高斯分布
均值为 μ,方差为 σ 的平方。该函数图像决定了 x 取不同值的概率
当一个特征量或数量受到多个相关或不相关的因素共同影响时,它一定服从正态分布。
算法流程
- 选择可能出现的异常特征
- 选择μ(1~n),σ(1~n)。
- 在未标记的训练集上估计这些参数
- 对新示例进行计算分布概率,与阈值相比较,判断是否异常。
余下见(写不动了):机器学习(十五)异常检测_竹清兰香的博客-CSDN博客