假设我们有数据集{ x ( 1 ) , x ( 2 ) , … … , x ( m ) x^{(1)},x^{(2)},……,x^{(m)} x(1),x(2),……,x(m)},其中每个样本都有两个特征值 ( x 1 , x 2 ) (x_1,x_2) (x1,x2),将其画在平面坐标系中得到如下结果。假设数据集是正常的,那么我们所得到的模型能根据新数据 x t e s t x_{test} xtest的位置告诉我们其属于原数据的可能性 p ( x ) p(x) p(x),如果 p ( x ) > ξ p(x)>\xi p(x)>ξ,则我们认为该数据正常,否则数据异常。
1 高斯分布
高斯分布,也称正态分布。如果 x x x符合高斯分布 x x x~ N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则其概率密度函数为:
p ( x , μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x,\mu,\sigma^2)= \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(x,μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
其中 μ , σ 2 \mu,\sigma^2 μ,σ2可以利用已知数据集{
x ( 1 ) , x ( 2 ) , … … , x ( m ) x^{(1)},x^{(2)},……,x^{(m)} x(1),x(2),……,x(m)}进行估算:
μ = 1 m ∑ i = 1 m x ( i ) σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \mu = \frac{1}{m}\sum_{i=1}^{m}x^{(i)} \qquad \sigma^2= \frac{1}{m}\sum_{i=1}^{m}(x^{(i)} -\mu)^2 μ=m1i=1∑mx(i)σ2=m1i=1∑