斯坦福机器学习笔记九

最新推荐文章于 2024-06-19 21:12:32 发布

羊和咩咩

最新推荐文章于 2024-06-19 21:12:32 发布

阅读量567

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/a_yangfh/article/details/71248611

版权

这篇博客探讨了异常检测算法，特别是在非监督学习中的应用。文章介绍了如何使用高斯分布进行密度估计，建立异常检测模型，并通过比较与监督学习的差异，强调在异常样本较少时使用异常检测的优势。此外，还讨论了特征向量的选择和多元高斯分布在减少误检方面的改进。

摘要由CSDN通过智能技术生成

异常检测

对于给定数据集 ${{\text{x}}^{1}}\text{}，{{\text{x}}^{2}}\text{}，\ldots \text{}，{{\text{x}}^{\text{m}}}$ ，假设数据集是正常的，我们希望知道新的数据 ${{\text{x}}_{\text{test}}}$ 是不是异常的，即这个测试数据不属于给定数据集所构成的那个数据组的几率。构建出的模型应该能够根据该测试数据的位置告诉我们其属于一组数据的可能性p(x)。异常检测算法虽然主要用于非监督学习问题，但从某些角度看，它又类似于一些监督学习问题。

这里写图片描述

如上图所示，在蓝色圈内的数据属于该组数据的可能性较高，在中心区域的这些数据有很大的概率值，而稍微远离中心区域的数据概率会小一些，更远的地方的数据，它们的概率将更小，而外面的数据将成为异常数据，这种方法称为密度估计。

这里采用的是高斯分布开发异常检测算法，对于给定的数据集 ${{\text{x}}^{1}}\text{}，{{\text{x}}^{2}}\text{}，\ldots \text{}，{{\text{x}}^{\text{m}}}$ ，我们要对每一个特征计算 μ 和 ${{\text{ }\!\!\sigma\!\!\text{ }}^{2}}$ 的估计值。

${{\text{ }\!\!\mu\!\!\text{ }}_{\text{j}}}=\frac{1}{\text{m}}\underset{\text{i}=1}{\overset{\text{m}}{\mathop \sum }}\,{{\text{x}}^{\left( \text{i} \right)}}$

σ 2j=