异常检测
问题动机
以飞机发动机的例子来说明问题
设定一个阈值,如果偏离程度过大,则认定为有异常
步骤:
- 捕捉特征 x ( i ) x^{(i)} x(i)
- 建立分布模型 p ( x ) p(x) p(x)
- 确定哪些用户有异常,若 p ( x ) < ϵ p(x)<\epsilon p(x)<ϵ
高斯分布
异常检测的算法
- 选择有可能的特征 x i x_i xi
- 参数拟合,利用似然估计的方法进行参数的拟合。
- 根据高斯分布算出异常的概率有多大,与
ϵ
\epsilon
ϵ作比较
多元高斯分布
Original model VS. Multivariate Gaussian
原始模型和多元高斯分布模型其实就是一个n个一维分布和n维分布的对比,独立与不独立的问题
确定特征的数量和样本数量的关系以及特征的冗余程度,如果出现冗余的话就进行删除操作