多元核密度估计
承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。
定义
给定一组样本
X
=
{
x
1
,
x
2
,
⋯
,
x
n
}
\bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \}
X={x1,x2,⋯,xn}且都是
d
d
d维的向量,并且取自同一个连续分布
f
(
x
)
f(\bm{x})
f(x),则在任意点
x
\bm{x}
x处的核密度估计为:
f
h
(
x
)
^
=
1
n
∑
i
=
1
n
1
h
d
K
(
x
−
X
i
h
)
\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h^d} K\left( \frac{\bm{x-\bm{X}_i}}{h} \right)
fh(x)^=n1i=1∑nhd1K(hx−Xi)
f
(
x
)
f(\bm{x})
f(x)是一个
d
d
d维随机变量的密度函数.
K
(
⋅
)
K(\cdot)
K(⋅)是定义在
d
d
d维空间上的核函数,即
K
:
R
d
→
R
+
K:\reals^d \to \reals_+
K:Rd→R+,并满足:
K
(
x
)
⩾
0
,
∫
K
(
x
)
d
u
=
1.
K(\bm{x}) \geqslant 0, \int K(\bm{x})\rm{d}\bm{u}=1.
K(x)⩾0,∫K(x)du=1.
更一般的形式有:
f
h
(
x
)
^
=
1
n
∑
i
=
1
n
1
h
1
⋅
⋯
⋅
h
n
K
(
x
1
−
X
1
h
1
,
⋯
,
x
n
−
X
n
h
n
)
\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h_1\cdot \dots \cdot h_n} K\left( \frac{\bm{x}_1-\bm{X}_1}{h_1},\cdots, \frac{\bm{x}_n-\bm{X}_n}{h_n} \right)
fh(x)^=n1i=1∑nh1⋅⋯⋅hn1K(h1x1−X1,⋯,hnxn−Xn)
最一般的形式有:
f
H
^
(
x
)
=
1
n
∑
i
=
1
n
1
d
e
t
(
H
)
K
{
H
−
1
(
x
−
X
i
)
}
\hat{f_\bold{H}}(\bm{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{\rm{det}(\bold{H})}K\{ \bold{H}^{-1}(\bm{x}-\bm{X}_i) \}
fH^(x)=n1i=1∑ndet(H)1K{H−1(x−Xi)}
其中
H
\bold{H}
H是对称的窗宽矩阵.
核函数的类型
设随机变量 u = { u 1 , ⋯ , u d } T \bm{u}=\{ u_1,\cdots,u_d\}^{\rm{T}} u={u1,⋯,ud}T
- 乘积核
K ( u ) = K ( u 1 ) ⋅ … ⋅ K ( u d ) K(\bm{u})=K(u_1)\cdot \ldots \cdot K(u_d) K(u)=K(u1)⋅…⋅K(ud) - 放射或对称核
K ( u ) = K ( ∥ u ∥ ) ∫ R d K ( ∥ u ∥ ) d u 其 中 ( ∥ u ∥ = 定 义 u T u ) K(\bm{u})=\frac{K(\lVert \bm{u}\rVert)}{\int_{\R^d}K(\lVert \bm{u}\rVert)d\bm{u}} 其中(\lVert \bm{u}\rVert\stackrel{定义}{=}\sqrt{\bm{u}^{\rm{T}}\bm{u}}) K(u)=∫RdK(∥u∥)duK(∥u∥)其中(∥u∥=定义uTu)
最优窗宽
参照一维条件下的最优窗宽选择办法,对高维情况采用多维泰勒展开,有:
B
i
a
s
≈
1
2
h
2
α
∇
2
f
(
x
)
,
V
(
f
(
x
)
^
)
≈
n
−
1
h
−
d
β
f
(
x
)
\rm{Bias} \approx \frac{1}{2} \mathit{h}^2 \alpha \nabla^2 \mathit{f}(\bm{x}), V(\hat{f(\bm{x})})\approx n^{-1}h^{-d}\beta f(x)
Bias≈21h2α∇2f(x),V(f(x)^)≈n−1h−dβf(x)
其中
α
=
∫
x
2
K
(
x
)
d
x
,
β
=
∫
K
(
x
2
)
d
x
\alpha=\int \bm{x}^2K(\bm{x})dx,\beta=\int K(\bm{x}^2)d\bm{x}
α=∫x2K(x)dx,β=∫K(x2)dx.因此可以得到渐进积分均方误:
A
M
I
S
E
=
1
4
h
4
α
2
∫
∇
2
f
(
x
)
d
x
+
n
−
1
h
−
h
β
.
\bold{AMISE}=\frac{1}{4}h^4\alpha^2\int \nabla^2f(\bm{x})d\bm{x}+n^{-1}h^{-h}\beta.
AMISE=41h4α2∫∇2f(x)dx+n−1h−hβ.
由此最优窗宽为:
h
o
p
t
=
{
d
β
α
−
2
(
∫
∇
2
f
(
x
)
d
x
)
}
1
/
(
d
+
4
)
n
−
1
/
(
d
+
4
)
h_{opt}=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2f(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}n^{-1/(d+4)}
hopt={dβα−2(∫∇2f(x)dx)}1/(d+4)n−1/(d+4)
由于上述
f
(
x
)
f(\bm{x})
f(x)是未知的,当采用多维正态分布密度函数
Φ
(
x
)
\varPhi(\bm{x})
Φ(x)时,最优窗口为:
h
o
p
t
=
T
(
K
)
n
−
1
/
(
d
+
4
)
h_{opt}=T(K)n^{-1/(d+4)}
hopt=T(K)n−1/(d+4)
其中
T
(
K
)
=
{
d
β
α
−
2
(
∫
∇
2
Φ
(
x
)
d
x
)
}
1
/
(
d
+
4
)
T(K)=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2\varPhi(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}
T(K)={dβα−2(∫∇2Φ(x)dx)}1/(d+4).
对于
T
(
K
)
T(K)
T(K),在知道估计中的核函数类型后,可以计算出来,并得到最优窗宽
h
o
p
t
h_{opt}
hopt.以下给出不同核函数的
T
(
K
)
T(K)
T(K):
K e r n e l Kernel Kernel | d d d | T ( K ) T(K) T(K) |
---|---|---|
K n K_n Kn高斯核 | 2 | 1 |
K n K_n Kn高斯核 | d | { 4 / ( d + 2 ) 1 / ( d + 4 ) } \{4/(d+2)^{1/(d+4)}\} {4/(d+2)1/(d+4)} |
K e K_e Ke(Epanechinikow) | 2 | 2.40 |
K e K_e Ke(Epanechinikow) | d | { 8 c d − 1 ( d + 4 ) ( 2 π ) } 1 / ( d + 4 ) \{8c_d^{-1}(d+4)(2\sqrt{\pi}) \}^{1/(d+4)} {8cd−1(d+4)(2π)}1/(d+4) |
K 2 K_2 K2二次 | 2 | 2.78 |
K 3 K_3 K3三次 | 2 | 3.12 |