异常检测——基于统计学的方法
1.概述
异常检测的统计学方法有两种,参数方法和非参数方法。两者的区别在于参数方法要求假定数据服从某个参数分布,而非参数方法并不需要假定先验统计模型,但非参数方法并不是说模型是完全无参的,只是可以灵活假设参数类型和个数。
2.参数方法
2.1 基于正态分布的一元异常点检测
类似于箱型图的异常点(利用数据集的上下四分位数,中点等定义异常点。
假定输入数据集为 x ( 1 ) , x ( 2 ) , . . . , x ( m ) {x^{(1)}, x^{(2)}, ..., x^{(m)}} x(1),x(2),...,x(m),数据集中的样本服从正态分布,即 x ( i ) ∼ N ( μ , σ 2 ) x^{(i)}\sim N(\mu, \sigma^2) x(i)∼N(μ,σ2),我们可以根据样本求出参数 μ \mu μ和 σ \sigma σ。
μ = 1 m ∑ i = 1 m x ( i ) \mu=\frac 1m\sum_{i=1}^m x^{(i)} μ=m1∑i=1mx(i)
σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^2=\frac 1m\sum_{i=1}^m (x^{(i)}-\mu)^2 σ2=m1∑i=1m(x(i)−μ)2
求出参数之后,我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为
p ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac 1{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x)=