异常检测task2--基于统计学的方法

#- -因为上次顺序弄错了,这次把统计学的方法补上
主要内容包括:高斯分布、箱线图、HBOS

1、概述
统计学会对数据的正常性做出假设,他假定正常数据由模型产生,不遵守该规律的数据为异常,统计数据所做的统计模型假定是否成立
异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。
统计学主要包含两种方法:参数方法与非参数方法–
1)参数方法假定正常的数据对象被一个以Θ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率。该值越小,x越可能是异常点。
2)非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据学习模型是不可能的)。

2、参数方法
2.1基于正态分布
假定一个特征服从正态分布N(μ,σ),假定取值在μ± 3σ的外的数为异常值,在python下可以根据箱线图来观察,或者自定义3倍标准差函数。
python code:seaborn.boxplot(data)

2.2多元异常点检测
涉及多个特征的多元数据可以将一元特征的检测方法拓展
Step1:假定任一维特征服从正态分布且相互独立,单独计算各维均值标准差进行异常值处理;
Step2:基于step1的前提下,若特征间有相关性,则使用多元正态分布
注:ps:当多元高斯分布模型的协方差矩阵∑为对角矩阵,且对角线上的元素为各自一元高斯分布模型的方差时,二者是等价的。

3、非参数方法
在异常检测的非参数方法中,“正常数据”的模型从输入数据学习,而不是假定一个先验。通常,非参数方法对数据做较少假定。

3.1:直方图方法
Step1:构造直方图。使用输入数据(训练数据)构造一个直方图。该直方图可以是一元的,或者多元的(如果输入数据是多维的)。
尽管非参数方法并不假定任何先验统计模型,但是通常确实要求用户提供参数,以便由数据学习。例如,用户必须指定直方图的类型(等宽的或等深的)和其他参数(直方图中的箱数或每个箱的大小等)。与参数方法不同,这些参数并不指定数据分布的类型。
Step2:检测异常点。为了确定一个对象是否是异常点,可以对照直方图检查它。在最简单的方法中,如果该对象落入直方图的一个箱中,则该对象被看作正常的,否则被认为是异常点。
对于更复杂的方法,可以使用直方图赋予每个对象一个异常点得分。例如令对象的异常点得分为该对象落入的箱的容积的倒数。
注:使用直方图作为异常点检测的非参数模型的一个缺点是,很难选择一个合适的箱尺寸。一方面,如果箱尺寸太小,则许多正常对象都会落入空的或稀疏的箱中,因而被误识别为异常点。另一方面,如果箱尺寸太大,则异常点对象可能渗入某些频繁的箱中,因而“假扮”成正常的。

4、基于角度
核心思想:特征空间中异常值与其他样本之间连线的角度较小,而正常值被其与多数数据连线的角度围绕。
在这里插入图片描述

其中A为异常点,B为正常值。
如果数据点与其余点离得较远,则潜在角度可能越小。因此,具有较小角度谱的数据点是异常值,而具有较大角度谱的数据点不是异常值。
考虑三个点X,Y,Z。如果对于任意不同的点Y,Z,有:
在这里插入图片描述

其中|| ||代表L2范数 , <⋅>代表点积。
在这里插入图片描述

这是一个加权余弦,因为分母包含L2-范数,其通过距离的逆加权进一步减小了异常点的加权角,这也对角谱产生了影响。然后,通过改变数据点Y和Z,保持X的值不变计算所有角度的方法。相应地,数据点X的基于角度的异常分数(ABOF)∈ D为:

5、HBOS
HBOS全名为:Histogram-based Outlier Score。它是一种单变量方法的组合,不能对特征之间的依赖关系进行建模,但是计算速度较快,对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分,区间的密度越高,异常评分越低。
Step1:对数据分箱(两种方法)
1)静态直方图:将特征等距分箱,样本落入每个箱的频率(相对数量)作为密度(箱子高度)的估计。
2)动态直方图:将特征排序后等频分箱,k为箱数,直方图中的箱面积表示实例数。因为箱的宽度是由箱中第一个值和最后一个值决定的,因此每一个箱的高度都是可计算的。这意味着跨度大的箱的高度低,即密度小,只有一种情况例外,超过k个数相等,此时允许在同一个箱里超过n(总样本数)/k值。
Step2:对每个维度都计算了一个独立的直方图,其中每个箱子的高度表示密度的估计。然后为了使得最大高度为1(确保了每个特征与异常值得分的权重相等),对直方图进行归一化处理:
在这里插入图片描述

推导:
在这里插入图片描述

两边取对数:
在这里插入图片描述

概率密度越大,异常评分越小,为了方便评分,两边乘以“-1”:
在这里插入图片描述

最后可得:
在这里插入图片描述

6、总结
6.1统计学方法有数据学习模型去侦测异常点,其优点在统计上无可非议,但前期需要满足假设条件。
6.2HBOS在全局异常检测效能良好,但局部异常欠缺,且比标准算法要快,尤其在大数据集上面

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值