斯坦福机器学习笔记九

这篇博客探讨了异常检测算法,特别是在非监督学习中的应用。文章介绍了如何使用高斯分布进行密度估计,建立异常检测模型,并通过比较与监督学习的差异,强调在异常样本较少时使用异常检测的优势。此外,还讨论了特征向量的选择和多元高斯分布在减少误检方面的改进。
摘要由CSDN通过智能技术生成

异常检测

对于给定数据集 x1x2xm ,假设数据集是正常的,我们希望知道新的数据 xtest 是不是异常的,即这个测试数据不属于给定数据集所构成的那个数据组的几率。构建出的模型应该能够根据该测试数据的位置告诉我们其属于一组数据的可能性p(x)。异常检测算法虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

这里写图片描述

如上图所示,在蓝色圈内的数据属于该组数据的可能性较高,在中心区域的这些数据有很大的概率值,而稍微远离中心区域的数据概率会小一些 ,更远的地方的数据,它们的概率将更小,而外面的数据将成为异常数据,这种方法称为密度估计。

这里采用的是高斯分布开发异常检测算法,对于给定的数据集 x1x2xm ,我们要对每一个特征计算 μ 和  σ 2 的估计值。

 μ j=1mmi=1x(i)

 σ 2j=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值