目录
一、定义
(一)图示异常点
(二)公式定义
数据集落在二维坐标中间的概率较大,越外圈概率越小;所以 设P(Xtest)<ε 时,标记为异常
二、应用
1、网站上异常行为用户
2、工业领域飞机引擎
3、数据中心计算机监控
三、异常检测算法(利用高斯分布推导)
(一)高斯分布
1、符号的含义
μ控制钟型曲线的中心位置
σ控制钟型曲线的宽度
决定x取不同值时的概率,中心值时概率大,因为此时密度函数大
2、高斯分布的例子
3、参数估计
给定数据集,估算出μ和σ^2的值,如下图的数据集和正态分布图拟合较好
μ取所有数据集的均值,σ^2的值公式如下图所示:
(二)推导p(x)
注:其中μj是特征量j的均值
四、开发异常检测的应用
(一)需可评估算法
(二)数据集的分配
(三)评定指标
1、数据具有倾斜度(y=0的数量极少),用真阳性,假阳性,召回率等指标进行评估
2、ε尝试不同的取值,观察F1-score的最大化
五、异常检测vs监督学习
(一)如何选择
1、异常检测(用高斯分布建模):
①正常样本较少时
②大量的负样本数量时
③负样本类型很多时
2、监督学习
正常样本和负样本的数量很多时
六、如何选择数据集的特征
(一)不满足高斯分布的特征的数据如何处理
1、octave中绘制数据直方图的方式是使用hist函数
2、如下图中的数据分布时,进行一次对数转换;
3、其他的数据处理也写在图中
(二)如何得到异常检测算法的特征
1、如何建立新特征(误差分析)
通过拟合的高斯分布检测出异常样本,再分析异常样本的特征,想出一个新特征x2,与剩下正常样本的区别; 从而有下右图的效果,使得更容易找出异常样本
七、多变量高斯分布
(一)背景
左图绿色叉点表示为异常点,因为它并未和大多数样本一样,随着CPU使用增大,内存使用量也增大 ;
右图是根据特征x1和x2拟合的高斯分布,在这两个高斯分布中绿色叉点又并非是显著异常点
因为左图的大概率分布时蓝色椭圆形,右两图的大概率是左图中的粉色圈圈
(二)改良版高斯分布出世
1、p(x)的参数及公式
注:covariance matrix 是协方差矩阵
2、多元高斯分布的例子
多用于描述两个特征之间的正相关或负相关
①缩小协方差矩阵,峰值鼓包的宽度会减小,高度会增加
②减小协方差中第一个特征变量x1的方差,保持x2的方差不变,如图2所示;
增大x1的方差,保持x2的方差不变,改变如图3所示
③改变x2方差,保持x1方差同理
④改变协方差矩阵非对角线上的元素,得到不同的高斯分布
⑤设置为负值,则x1和x2负相关
⑥改变μ均值,初始值0,0则图在x1=0,x2=0这个点周围,改变后则移动整个分布的中心
八、应用多元高斯分布
(一)参数拟合(参数估计)
(二)应用步骤
(三)特点
一般情况下,原始高斯分布轴是是关于轴对称,多元高斯分布的图形的有角度的
特殊情况:多元高斯分布的协方差矩阵非对角线都是0时,多元高斯分布的图形是关于轴对称,即将原始模型中的方差放入对角线中,原始模型和多元高斯模型就会完全相同
(四)原始高斯模型与多元高斯模型如何选择
注:
1、m是数据集数量,n是特征值数量
2、 原始高斯模型运用更多,即使需要捕捉具有相关性的特征,也是手动设计如图中x3的新特征;but若m较大,而n不是很大(m≥10n)时,多元高斯值得考虑
3、拟合多元高斯分布时,若发现协方差矩阵不可逆,考虑两种情况,一是m<n,或二是存在类似(x3=x1+x2即线性相关)或相同(x1=x2)的冗余 特征