文章目录
1 异常检测
1.1 高斯分布
假设每个特征都是服从高斯分布的:
X ( j ) ∼ N ( μ j , σ j 2 ) , j = 1 , ⋯ , n X^{(j)}\sim N(\mu_{j},\sigma_{j}^{2}),\ j=1,\cdots,n X(j)∼N(μj,σj2), j=1,⋯,n
假设每个特征之间是相互独立的,
p ( x ; μ , σ 2 ) = ∏ j = 1 n p ( x ( j ) ; μ j , σ j 2 ) p(x;\mu,\sigma^2) = \prod_{j=1}^{n}p(x^{(j)};\mu_{j},\sigma_{j}^{2}) p(x;μ,σ2)=j=1∏np(x(j);μj,σj2)
决策函数:
y = { 1 , p ( x ) < ϵ ( 异 常 ) 0 , p ( x ) ≥ ϵ ( 正 常 ) y=\begin{cases}1, & p(x)<\epsilon\ (异常)\\ 0, & p(x)\geq \epsilon\ (正常) \end{cases} y={
1,0,p(x)<ϵ (异常)p(x)≥ϵ (正常)
1.2 异常检测算法
给定10000个正常数据,20个异常数据。
Step1 用正常数据 (6000正常数据) 估计参数 μ j , σ j 2 , j = 1 , ⋯ , n \mu_{j},\sigma_{j}^{2},j=1,\cdots,n μj,σj2,j=1,⋯,n (极大似然估计)
μ ^ j = x ‾ ( j ) = 1 m ∑ i = 1 m x i ( j ) σ ^ j