十五: 异常检测

1 动机

异常检测问题,预测Xtest是否异常,用于非监督学习问题(又类似监督学习)

密度估计: 

                          

                        

 

2 高斯/正态分布

规则:变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为

                     

                       

图例:

             

 

 

3 算法

异常检测算法:使用训练数据计算均值与方差(利用正态分布),拟合Px,选定边界ε,当Px小于ε时预测为异常数据;

算法验证:(此处带有结果标记的数据是为了算法校验,算法本身采用的是无标签数据)

                  1. 60%正常训练数据计算均值方差,拟合Px。

                  2. 20%正常训练数据与50%异常数据交叉验证,通过查准率查全率选择合适的ε。

                  3. 20%正常训练数据与50%异常数据测试,校验预测值。

异常检测与监督学习的对比:

        

异常检测假设数据符合正态分布,若不符合,建议做转换如x = log(x+c)或 

为了更好的判定结果,我们可以组合不同的特征,如CPU负载与网络通信量比例,如果其过高即服务器陷入一些问题

 

4  多元高斯分布

普通高斯分布Px计算使用多特征概率累乘如下:

                       

多元高斯分布Px构建了特征的协方差矩阵去计算如下:

                            

                         

假设两特征数据存在相关性,分别使用以上两个分布绘制结果如下:

                                          

                                                       可见多元高斯分布考虑了特征间的相关性

模型对比:

                     

综上,建议训练集不是很大,特征不是特别多又存在相关性时可以选用多元高斯分布模型;

           当数据量较大选用高斯分布,若存在相关性特征,可以做特征组合构造新特征来模拟;

多元高斯分布异常检测

                       

补充:|Σ|->det(sigma)
 

 

 

 

 

 

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记,感谢!

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值