Stanford机器学习---第十三讲. 异常检测---此讲综合应用了所有以往知识

=============问题描述============




====================高斯分布===================




==============检测算法==================




===============具体实现=====用评估算法来确定参数的选择=========


================Anomaly Detection vs. Supervised Learning===========

1.当有Y值时,为和不直接用Supervised Learning算法(回归,神经网络)去检测异常呢?

1)YES远小于NO时

2)当异常的特征五花八门时

此2种情况用异常检测。而对于SPAM EMAIL这种情况,SPAM EMAIL很多,

所以Supervised Learning算法有大量机会学习。

Anomaly Detection 实际从大量的NO例子中学习!!



2.当使用Anomaly Detection 算法的NO大量增多时,可用Supervised Learning



=============Choosing What Features to Use===================

1.对于非高斯分布的特征,要用一些转化函数处理成高斯分布的后再用


2.小例子


3.当异常检测错误时(错误时的概率值还比较大,不好区分,如绿×),可考虑引入新的特征来区分该错误。


4.特征选择

选容易出现极大、极小值的作为特征。如在数据中心,也可用CPU/NETWORK,

作为特征,表示机器死循环。


==========Multivariate Gaussian Distribution =================

1.可弥补上面算法的某些不足。如单看特征X1,X2(绿×)好像都没错。但整体来看,

实际是不正常的。


2.该方法把X(特征向量)看作一个整体。带入公式去算概率


3.下面几个图反映了特征间的相关性(不再单独以X1,X2考虑)




===============Anomaly Detection using the Multivariate Gaussian=======

1.注意公式


2.计算过程


3.当且仅当新模型的“西格玛”,下上三角都为0时,才和旧模型等价


4.原始方法:想工作好要加特殊参数(X3),不过其计算代价小。而新方法要求M>>N才好。

但其自动考虑了特征间的相关性。注意,如果矩阵不可逆,以为着特征直接并非全线性

无关。












评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值