Parzen窗的高斯核函数
Parzen window的高斯核函数估计——非参数概率密度函数估计方法
预备知识
1.概率密度函数知识(自学)
2.高斯核函数
3.密度估计计算方法
高斯核函数
高斯函数也就是常见的正态分布,其概率密度函数如下:
p
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^{2}}{2\sigma ^{2}})
p(x)=2πσ1exp(−2σ2(x−μ)2)
其中
μ
\mu
μ是均值,而
σ
\sigma
σ是标准差,
σ
2
\sigma ^{2}
σ2是方差 显而易见哈
利用高斯核进行计算的方法
一般估计方法
给定一组数据 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn,可以估计其满足的概率密度函数p(x),进而对于任意x,都可得到其概率p(x)。
样本落在区域R的概率满足:
P
=
∫
R
p
(
x
)
d
x
P = \int _{R}p(x) \,dx
P=∫Rp(x)dx
特殊估计方法
若R足够小,也就是所取的区间足够小,则在R中,可以当作概率密度函数p(x)几乎不变,则有:
P
=
p
(
x
)
∫
R
d
x
=
p
(
x
)
V
P = p(x)\int _{R}\,dx=p(x)V
P=p(x)∫Rdx=p(x)V
另一方面,通过样本的观测,
x
1
,
x
2
,
.
.
.
,
x
n
x_{1},x_{2},...,x_{n}
x1,x2,...,xn,我们可以计算出落在区域R的样本数量为k,进而可得:
P
=
k
n
P = \frac{k}{n}
P=nk
结合以上两式,可以得到概率密度函数的计算式为:
p
(
x
)
=
k
n
∗
V
p(x) = \frac{k}{n*V}
p(x)=n∗Vk
Parzen窗的高斯核估计
Parzen窗的二维数据计算
考虑区域R为一个以x为中心的超立方体,对于二维数据,有
V
=
h
2
V = h^{2}
V=h2
引入一个计数函数:
ϕ
(
x
i
−
x
h
)
=
{
1
∣
x
i
k
−
x
k
∣
h
≤
1
2
,
k
=
1
,
2
0
o
t
h
e
r
w
i
s
e
\phi(\frac{x_{i}-x}{h}) = \begin{cases} 1 & \frac{|x_{ik}-x_{k}|}{h} \leq \frac{1}{2},k=1,2 \\ 0 & otherwise \end{cases}
ϕ(hxi−x)={10h∣xik−xk∣≤21,k=1,2otherwise
可得,落在区域R内的点数为:
k
=
∑
i
=
1
n
ϕ
(
x
i
−
x
h
)
k = \sum _{i=1}^{n}\phi(\frac{x_{i}-x}{h})
k=i=1∑nϕ(hxi−x)
进而得到Parzen window概率密度估计公式:
p
(
x
)
=
k
n
∗
V
=
1
n
h
2
∑
i
=
1
n
ϕ
(
x
i
−
x
h
)
p(x) = \frac{k}{n*V} = \frac{1}{nh^{2}}\sum _{i=1}^{n}\phi(\frac{x_{i}-x}{h})
p(x)=n∗Vk=nh21i=1∑nϕ(hxi−x)
计数函数
ϕ
(
x
i
−
x
h
)
\phi(\frac{x_{i}-x}{h})
ϕ(hxi−x)也被称作窗函数,也可以使用高斯函数作为窗函数,即距离
x
i
x_{i}
xi越近则计数权重越大:
p
(
x
)
=
1
n
∑
i
=
1
n
1
2
π
σ
e
x
p
(
−
(
x
i
−
x
)
2
2
σ
2
)
p(x) = \frac{1}{n}\sum _{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_{i}-x)^{2}}{2\sigma^{2}})
p(x)=n1i=1∑n2πσ1exp(−2σ2(xi−x)2)
参考:https://zhuanlan.zhihu.com/p/348358774