异常检测——基于统计学的方法(学习blog))

本文介绍了基于统计学的异常检测方法,包括一元异常点检测、多元异常点检测和非参数方法如HBOS。异常检测通过学习数据的生成模型,识别低概率区域的对象作为异常点。例如,一元数据可假设服从正态分布,计算概率并设定阈值判断异常;多元数据考虑相关性和多元高斯分布;非参数方法如HBOS则通过对每个特征构建直方图来估计密度,识别异常得分高的对象。
摘要由CSDN通过智能技术生成

异常检测——基于统计学方法

感谢DataWhale

概述

统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。

即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。

根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。

参数方法假定正常的数据对象被一个以 Θ \Theta Θ为参数的参数分布产生。该参数分布的概率密度函数 f ( x , Θ ) f(x,\Theta) f(x,Θ)给出对象 x x x被该分布产生的概率。该值越小, x x x越可能是异常点。

非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据学习模型是不可能的)。

检测方法

基于正态分布的一元异常点检测

仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生,然后可以由输入数据学习正态分布的参数,并把低概率的点识别为异常点。

假定输入数据集为 x ( 1 ) , x ( 2 ) , . . . , x ( m ) {x^{(1)}, x^{(2)}, ..., x^{(m)}} x(1),x(2),...,x(m),数据集中的样本服从正态分布,即 x ( i ) ∼ N ( μ , σ 2 ) x^{(i)}\sim N(\mu, \sigma^2) x(i)N(μ,σ2),我们可以根据样本求出参数 μ \mu μ σ \sigma σ

μ = 1 m ∑ i = 1 m x ( i ) \mu=\frac 1m\sum_{i=1}^m x^{(i)} μ=m1i=1mx(i)

σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^2=\frac 1m\sum_{i=1}^m (x^{(i)}-\mu)^2 σ2=m1i=1m(x(i)μ)2

求出参数之后,我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为

p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac 1{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x)=2π σ1exp(2σ2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值