[机器学习笔记]Note13--异常检测

最新推荐文章于 2024-08-06 14:04:05 发布

spearhead_cai

最新推荐文章于 2024-08-06 14:04:05 发布

阅读量2.4k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lc013/article/details/52026634

版权

本文是机器学习笔记的一部分，专注于异常检测，一种非监督学习算法。介绍了密度估计、高斯分布和异常检测算法的原理，强调了特征选择的重要性。通过设置阈值并利用高斯分布进行异常检测，同时探讨了多元高斯分布在处理相关特征时的优势。此外，还讨论了如何评价异常检测系统以及与监督学习的区别。

摘要由CSDN通过智能技术生成

继续是机器学习课程的笔记，本节课内容是异常检测，它是一个非监督学习算法，用于发现可能不应该属于一个已定义的组中的数据。

密度估计

首先是给出一个例子，如下图所示，是一个测试飞机引擎的例子，给定数据集{ $x^{(1)},x^{(2)},\ldots,x^{(m)}$ },假设数据集是正确的，我们希望知道新的数据 $x_{test}$ 是不是异常的，即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 $p_{(x)}$ 。

这里写图片描述

在上图中，在蓝色圈内的数据属于该组数据的可能性较高，而越是偏远的数据，其属于该组数据的可能性就越低。

这种方法称为密度估计，表达如下：

i f p (x) {\leq ϵ a n o m a l y > ϵ n o r m a l

$if\quad p(x) \begin{cases} \le \epsilon \quad anomaly \\ \gt \epsilon \quad normal \end{cases}$

异常检测主要用来识别欺骗。

例如，在线采集而来的有关用户的数据，一个特征向量中可能会包含如：用户多久登陆一次，访问过的页面，在论坛发布的帖子数量，甚至是打字速度等。尝试根据这些特征构建一个模型，可以用这个模型来识别那些不符合该模式的用户。

再一个例子是检测一个数据中心，特征可能包含：内存使用情况，被访问的磁盘数量，CPU的负载，网络的通信量等。根据这些特征可以构建一个模型，用来判断某些计算机是否有可能出错了。

高斯分布

接下来回顾下高斯分布的基本知识。

通常如果我们认为变量x符合高斯分布，即 $x \sim N(\mu,\sigma^2)$ ,则其概率密度函数为：

p (x, μ, σ 2) = 1 ( \sqrt 2 π ) σ e x p - (( x - μ ) 2 2 σ 2)

$p(x,\mu,\sigma^2)=\frac{1}{\sqrt(2\pi)\sigma}exp^{-(\frac{(x-\mu)^2}{2\sigma^2})}$

下图是 $\mu$ 和 $\sigma^2$ 取不同值时，高斯分布的曲线图例子：

这里写图片描述

我们可以利用已有的数据来预测总体中的 $\mu$ 和 $\sigma^2$ ，计算方法如下：

μ =

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

spearhead_cai 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。