machine learning 第九周 Anomaly Detection

Anomaly Detection(异常检测)

  • 应用场景:金融诈骗中用户异常;飞机引擎制造残次品;监控电脑的流量

  • anomaly detection 具体算法:

     选择能代表异常的特征xi,计算其高斯分布。新的样本计算其p(x)<epsilon??

  • 评估

       还是分为三个集:训练集,交叉验证集,测试集

     评估的时候。因为错误的样本数可能很小,所以引用了P/R(查准率,召回率)和F=2pr/(r+p).

  • Anomaly detection 和监督学习的区别

      异常检测有大量的负样本(指的是正常样本),很少的正样本

      监督学习有很多可以预知类型的错误样本。比如垃圾邮件里有account ,money...,但是飞机引擎的错误样本不好判断错误特征,所以应该用异常检测。

  • 怎么选feature啊??

       首先,把数据分布都搞成高斯分布的感觉。

       手动选异常feature。刚开始这些错误样本可能被淹没了,没被检测出来,这个 时候可以选择组合一些feature,生成新的feature。

  • Multivariate Gaussian Distribution(Optimal)多元高斯分布

       两个feature在二维上的分布不是圆形的,For example:

也就是说,这些feature的分布是有关联的,所以不能单独计算各个feature的分布了,应该合起来算。这个时候,协方差矩阵就派上用场了。协方差矩阵说明了feature之间的相关性。以下是一些例子

具体的多元高斯分布的算法如下图,基本和高斯的一样,就是PDF不一样

  • 多元高斯和原来高斯模型的区别

      多元高斯可以自动捕捉特征,但是比较时间成本高,而且要满足m>10n;原模型使用的范围广,cheaper,可以手动自增feature。原模型可看作多元的特殊情况,即协方差矩阵只有主对角线有值,上下三角阵都是0.

 

 

       

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值