10-机器学习之异常检测(anomaly detection)

最新推荐文章于 2024-05-09 07:15:00 发布

MYVision_ MY视界

最新推荐文章于 2024-05-09 07:15:00 发布

阅读量812

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengshengwei3/article/details/100191658

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

目录

二算法过程

三样本的分配

四异常检测与监督学习

五如何选择特征

六异常检测中的误差分析流程

七多元高斯分布

八多元高斯分布建模

九如何选择原始模型和多元模型

一背景

已知一个数据集 $x^{1},x^{2},...,x^{m}$ ，对于一个新的样本x-test,需要有一个模型来判断这个样本是好的样本还是异常样本

定义一个模型(model) p(x)来判断样本是否是异常的，为该模型设定一个阈值作为判断样本是否异常的分界线。

如下图的示例

二算法过程

首选有一个训练集 $x^{1},x^{2},...,x^{m}$ ，要计算一个概率模型p(x)

假设样本都服从高斯分布，且都是独立同分布的

步骤如下：

一句话总结：如果出现了一个样本令p(x) < $\varepsilon$ ,则认为是异常的样本

三样本的分配

训练集：采用正常的样本来作为训练集（占总数据集的比重很大）

测试集：用占比稍小的混合了正常数据和异常数据的子数据集来作为交叉验证集和测试集

举例：

对于某个数据集，可以将数据集分为60%，20%，20%三个部分，分别作为训练集，交叉验证集，测试集，并且异常样本的50%，50%分别放到交叉验证集合和训练集中

四异常检测与监督学习

异常检测与监督学习一样，也是采用了标记过的样本来训练模型，最终用模型来判断新加入的样本是否是正常/异常样本。

（1）使用异常检测的场景

拥有少量的正样本和大量的负样本

异常有许多不同的类型，且算法很难从正样本中知道未来出现的样本的异常的具体类型

（2）使用监督学习的场景

同时拥有大量的正样本和负样本，训练集里的正负样本比例比较均匀

有足够的正样本预测新的正样本是什么样子的，未来出现的正样本和训练集里面已知的正样本会很相似

五如何选择特征

首先对于非高斯的特征，通过变换使其更接近高斯函数的形状

可以通过如下方式：

log(x)
log(x+1)
log(x+c)
$\sqrt{x}$

通过函数变换，使得特征拟合出来的曲线更接近高斯的钟形曲线

六异常检测中的误差分析流程

通常，我们的目标是让正样本的p(x)足够大，让负样本的p(x)足够小。但是通常情况下，两种类型样本的p(x)几乎一样大，此时，需要检查系统给出是负样本概率较大的样本，然后尝试用新的特征量来更好的区分数据。

一句话总结：通常，特征量最好选择对于异常样本有特别大或特别小的那些值得特征量

七多元高斯分布

通常会遇到如下问题，如下图所示

假设以CPU负载和内存用量为例进行异常检测，红色的点是正常的样本，左图中绿色的是异常的点，但是映射到右侧的两个高斯函数之后，发现映射过去的绿色样本与红色样本差异并不是很大，从右侧的结论来看，它可以被看做是正样本，从而造成预测错误，为了解决这种问题，引入了多元高斯分布

原理：不要单独的为各个维度建立高斯模型，为所有特征建立统一的模型

多元高斯分布举例如下：

改变协方差矩阵，可以得到不同的二元高斯分布函数

八多元高斯分布建模

算办法步骤如下：

1 拟合模型参数

2.给出一个新的样本，计算p(x)

3.如果p(x)< 阈值，则认为是异常样本

九如何选择原始模型和多元模型

（1）.如果需要用特征的组合来代表一个新的特征（这个特征关系是明确的），需要去创建一个新的特征，则可以用原始模型

（2).如果是让自己捕获特征组合之间的关系（特征之间的关系不明确），则可以用多元模型

MYVision_ MY视界

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
10-机器学习之异常检测(anomaly detection)

目录一背景二算法过程三样本的分配四异常检测与监督学习五如何选择特征六异常检测中的误差分析流程七多元高斯分布八多元高斯分布建模九如何选择原始模型和多元模型一背景已知一个数据集，对于一个新的样本x-test,需要有一个模型来判断这个样本是好的样本还是异常样本定义一个模型(model) p(x)来判断样本是否是异常的，为该模型设定一个阈...
复制链接

扫一扫

专栏目录

MYVision_ MY视界 CSDN认证博客专家 CSDN认证企业博客

码龄14年

146: 原创

9496: 周排名

1万+: 总排名

27万+: 访问

: 等级

2921: 积分

5396: 粉丝

221: 获赞

58: 评论

822: 收藏

私信

关注

热门文章

分类专栏

CMake 3篇
Linux 14篇
工程实践 15篇
Pytorch 5篇
tensorflow 7篇
OpenCV 8篇
深度学习 15篇
数字图像处理 24篇
各种编程 13篇
显微镜 2篇
Conan 4篇
Python 2篇
IMAGE FORMATS 12篇
机器视觉 3篇
前端开发 1篇
机器学习 12篇
未来 2篇
Eigen 4篇
语义分割 10篇

最新评论

Jetson Linux 上安装ZMQ
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
【TIFF】八.价值五千元的TIFF存储代码，你确定不来看看？
迎着阳光～: 您好，这个存储的tiff文件为什么我用window照片打不开，是我存储再哪里有问题吗？能看看您怎么写的吗
fopen 参数'rb' 与'rb+'引发的黑色血案
Hasson Wong: 用fread( buf, 1，size, file )
【TIFF】八.价值五千元的TIFF存储代码，你确定不来看看？
zym_123456: 代码好像有几个问题。 1、拼接的图像放大成4096*4096会不会失真？ 2、拼接的三列之间好像有一个明显的竖线？ 3、生成的TIFF文件只有一个图像文件目录（Image File Directory），金字塔图像只有一个Level层。 //第二行 tiff.SaveImage(mats[3], 0, nHeight, nWidth, nHeight*2); tiff.SaveImage(mats[4], nWidth, nHeight, nWidth * 2, nHeight * 2); tiff.SaveImage(mats[5], nWidth * 2, nHeight, nWidth * 3, nHeight * 3); 最后一个SaveImage调用，nHeight * 3是不是应该为nHeight * 2？ CTileTiff::SaveImage方法里面的 cv::Mat resized; ResizeImg(roi.data, resized.data, m_nTileWidth * nScale, m_nTileHeight * nScale, 3, nPitch, m_nTileWidth, m_nTileHeight, 3, m_nTileWidth*3); 无法生成缩放图像，resized.data为NULL。
fopen 参数'rb' 与'rb+'引发的黑色血案
weixin_47301450: 大佬发现具体原因了吗23年也遇到了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。