=============问题描述============
====================高斯分布===================
==============检测算法==================
===============具体实现=====用评估算法来确定参数的选择=========
================Anomaly Detection vs. Supervised Learning===========
1.当有Y值时,为和不直接用Supervised Learning算法(回归,神经网络)去检测异常呢?
1)YES远小于NO时
2)当异常的特征五花八门时
此2种情况用异常检测。而对于SPAM EMAIL这种情况,SPAM EMAIL很多,
所以Supervised Learning算法有大量机会学习。
而Anomaly Detection 实际从大量的NO例子中学习!!
2.当使用Anomaly Detection 算法的NO大量增多时,可用Supervised Learning
=============Choosing What Features to Use===================
1.对于非高斯分布的特征,要用一些转化函数处理成高斯分布的后再用
2.小例子
3.当异常检测错误时(错误时的概率值还比较大,不好区分,如绿×),可考虑引入新的特征来区分该错误。
4.特征选择
选容易出现极大、极小值的作为特征。如在数据中心,也可用CPU/NETWORK,
作为特征,表示机器死循环。
==========Multivariate Gaussian Distribution =================
1.可弥补上面算法的某些不足。如单看特征X1,X2(绿×)好像都没错。但整体来看,
实际是不正常的。
2.该方法把X(特征向量)看作一个整体。带入公式去算概率
3.下面几个图反映了特征间的相关性(不再单独以X1,X2考虑)
===============Anomaly Detection using the Multivariate Gaussian=======
1.注意公式
2.计算过程
3.当且仅当新模型的“西格玛”,下上三角都为0时,才和旧模型等价
4.原始方法:想工作好要加特殊参数(X3),不过其计算代价小。而新方法要求M>>N才好。
但其自动考虑了特征间的相关性。注意,如果矩阵不可逆,以为着特征直接并非全线性
无关。