异常检测及算法

目录

一、定义

(一)图示异常点

(二)公式定义

二、应用

三、异常检测算法(利用高斯分布推导)

(一)高斯分布

(二)推导p(x)

四、开发异常检测的应用

(一)需可评估算法

 (二)数据集的分配 

(三)评定指标

五、异常检测vs监督学习

(一)如何选择

六、如何选择数据集的特征

(一)不满足高斯分布的特征的数据如何处理

(二)如何得到异常检测算法的特征

 1、如何建立新特征(误差分析)

七、多变量高斯分布

(一)背景

(二)改良版高斯分布出世

1、p(x)的参数及公式

 2、多元高斯分布的例子

 八、应用多元高斯分布

(一)参数拟合(参数估计)

(二)应用步骤

(三)特点

(四)原始高斯模型与多元高斯模型如何选择


一、定义

(一)图示异常点

(二)公式定义

数据集落在二维坐标中间的概率较大,越外圈概率越小;所以 设P(Xtest)<ε 时,标记为异常

二、应用

1、网站上异常行为用户

2、工业领域飞机引擎

3、数据中心计算机监控

三、异常检测算法(利用高斯分布推导)

(一)高斯分布

1、符号的含义

μ控制钟型曲线的中心位置

σ控制钟型曲线的宽度

决定x取不同值时的概率,中心值时概率大,因为此时密度函数大

2、高斯分布的例子

 3、参数估计

给定数据集,估算出μ和σ^2的值,如下图的数据集和正态分布图拟合较好

μ取所有数据集的均值,σ^2的值公式如下图所示:

(二)推导p(x)

注:其中μj是特征量j的均值

四、开发异常检测的应用

(一)需可评估算法

 (二)数据集的分配 

(三)评定指标

1、数据具有倾斜度(y=0的数量极少),用真阳性,假阳性,召回率等指标进行评估

2、ε尝试不同的取值,观察F1-score的最大化

五、异常检测vs监督学习

(一)如何选择

1、异常检测(用高斯分布建模):

        ①正常样本较少时

        ②大量的负样本数量时

        ③负样本类型很多时

2、监督学习

正常样本和负样本的数量很多时

六、如何选择数据集的特征

(一)不满足高斯分布的特征的数据如何处理

1、octave中绘制数据直方图的方式是使用hist函数

2、如下图中的数据分布时,进行一次对数转换;

3、其他的数据处理也写在图中

 

(二)如何得到异常检测算法的特征

 1、如何建立新特征(误差分析)

通过拟合的高斯分布检测出异常样本,再分析异常样本的特征,想出一个新特征x2,与剩下正常样本的区别; 从而有下右图的效果,使得更容易找出异常样本

七、多变量高斯分布

(一)背景

左图绿色叉点表示为异常点,因为它并未和大多数样本一样,随着CPU使用增大,内存使用量也增大 ;

右图是根据特征x1和x2拟合的高斯分布,在这两个高斯分布中绿色叉点又并非是显著异常点

因为左图的大概率分布时蓝色椭圆形,右两图的大概率是左图中的粉色圈圈

(二)改良版高斯分布出世

1、p(x)的参数及公式

注:covariance matrix 是协方差矩阵

 2、多元高斯分布的例子

多用于描述两个特征之间的正相关或负相关

①缩小协方差矩阵,峰值鼓包的宽度会减小,高度会增加

 ②减小协方差中第一个特征变量x1的方差,保持x2的方差不变,如图2所示;

增大x1的方差,保持x2的方差不变,改变如图3所示

 ③改变x2方差,保持x1方差同理

 ④改变协方差矩阵非对角线上的元素,得到不同的高斯分布

 ⑤设置为负值,则x1和x2负相关

 ⑥改变μ均值,初始值0,0则图在x1=0,x2=0这个点周围,改变后则移动整个分布的中心

 八、应用多元高斯分布

(一)参数拟合(参数估计)

(二)应用步骤

(三)特点

一般情况下,原始高斯分布轴是是关于轴对称,多元高斯分布的图形的有角度的

特殊情况:多元高斯分布的协方差矩阵非对角线都是0时,多元高斯分布的图形是关于轴对称,即将原始模型中的方差放入对角线中,原始模型和多元高斯模型就会完全相同

(四)原始高斯模型与多元高斯模型如何选择

 注:

1、m是数据集数量,n是特征值数量

2、 原始高斯模型运用更多,即使需要捕捉具有相关性的特征,也是手动设计如图中x3的新特征;but若m较大,而n不是很大(m≥10n)时,多元高斯值得考虑

3、拟合多元高斯分布时,若发现协方差矩阵不可逆,考虑两种情况,一是m<n,或二是存在类似(x3=x1+x2即线性相关)或相同(x1=x2)的冗余 特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值