多维核密度估计

多元核密度估计

承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。

定义

给定一组样本 X = { x 1 , x 2 , ⋯   , x n } \bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \} X={x1,x2,,xn}且都是 d d d维的向量,并且取自同一个连续分布 f ( x ) f(\bm{x}) f(x),则在任意点 x \bm{x} x处的核密度估计为:
f h ( x ) ^ = 1 n ∑ i = 1 n 1 h d K ( x − X i h ) \hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h^d} K\left( \frac{\bm{x-\bm{X}_i}}{h} \right) fh(x)^=n1i=1nhd1K(hxXi)
f ( x ) f(\bm{x}) f(x)是一个 d d d维随机变量的密度函数. K ( ⋅ ) K(\cdot) K()是定义在 d d d维空间上的核函数,即 K : R d → R + K:\reals^d \to \reals_+ K:RdR+,并满足:
K ( x ) ⩾ 0 , ∫ K ( x ) d u = 1. K(\bm{x}) \geqslant 0, \int K(\bm{x})\rm{d}\bm{u}=1. K(x)0,K(x)du=1.
更一般的形式有:
f h ( x ) ^ = 1 n ∑ i = 1 n 1 h 1 ⋅ ⋯ ⋅ h n K ( x 1 − X 1 h 1 , ⋯   , x n − X n h n ) \hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h_1\cdot \dots \cdot h_n} K\left( \frac{\bm{x}_1-\bm{X}_1}{h_1},\cdots, \frac{\bm{x}_n-\bm{X}_n}{h_n} \right) fh(x)^=n1i=1nh1hn1K(h1x1X1,,hnxnXn)
最一般的形式有:
f H ^ ( x ) = 1 n ∑ i = 1 n 1 d e t ( H ) K { H − 1 ( x − X i ) } \hat{f_\bold{H}}(\bm{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{\rm{det}(\bold{H})}K\{ \bold{H}^{-1}(\bm{x}-\bm{X}_i) \} fH^(x)=n1i=1ndet(H)1K{H1(xXi)}
其中 H \bold{H} H是对称的窗宽矩阵.

核函数的类型

设随机变量 u = { u 1 , ⋯   , u d } T \bm{u}=\{ u_1,\cdots,u_d\}^{\rm{T}} u={u1,,ud}T

  • 乘积核
    K ( u ) = K ( u 1 ) ⋅ … ⋅ K ( u d ) K(\bm{u})=K(u_1)\cdot \ldots \cdot K(u_d) K(u)=K(u1)K(ud)
  • 放射或对称核
    K ( u ) = K ( ∥ u ∥ ) ∫ R d K ( ∥ u ∥ ) d u 其 中 ( ∥ u ∥ = 定 义 u T u ) K(\bm{u})=\frac{K(\lVert \bm{u}\rVert)}{\int_{\R^d}K(\lVert \bm{u}\rVert)d\bm{u}} 其中(\lVert \bm{u}\rVert\stackrel{定义}{=}\sqrt{\bm{u}^{\rm{T}}\bm{u}}) K(u)=RdK(u)duK(u)(u=uTu )
    在这里插入图片描述

最优窗宽

参照一维条件下的最优窗宽选择办法,对高维情况采用多维泰勒展开,有:
B i a s ≈ 1 2 h 2 α ∇ 2 f ( x ) , V ( f ( x ) ^ ) ≈ n − 1 h − d β f ( x ) \rm{Bias} \approx \frac{1}{2} \mathit{h}^2 \alpha \nabla^2 \mathit{f}(\bm{x}), V(\hat{f(\bm{x})})\approx n^{-1}h^{-d}\beta f(x) Bias21h2α2f(x),V(f(x)^)n1hdβf(x)
其中 α = ∫ x 2 K ( x ) d x , β = ∫ K ( x 2 ) d x \alpha=\int \bm{x}^2K(\bm{x})dx,\beta=\int K(\bm{x}^2)d\bm{x} α=x2K(x)dx,β=K(x2)dx.因此可以得到渐进积分均方误:
A M I S E = 1 4 h 4 α 2 ∫ ∇ 2 f ( x ) d x + n − 1 h − h β . \bold{AMISE}=\frac{1}{4}h^4\alpha^2\int \nabla^2f(\bm{x})d\bm{x}+n^{-1}h^{-h}\beta. AMISE=41h4α22f(x)dx+n1hhβ.
由此最优窗宽为:
h o p t = { d β α − 2 ( ∫ ∇ 2 f ( x ) d x ) } 1 / ( d + 4 ) n − 1 / ( d + 4 ) h_{opt}=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2f(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}n^{-1/(d+4)} hopt={dβα2(2f(x)dx)}1/(d+4)n1/(d+4)
由于上述 f ( x ) f(\bm{x}) f(x)是未知的,当采用多维正态分布密度函数 Φ ( x ) \varPhi(\bm{x}) Φ(x)时,最优窗口为:
h o p t = T ( K ) n − 1 / ( d + 4 ) h_{opt}=T(K)n^{-1/(d+4)} hopt=T(K)n1/(d+4)
其中 T ( K ) = { d β α − 2 ( ∫ ∇ 2 Φ ( x ) d x ) } 1 / ( d + 4 ) T(K)=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2\varPhi(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)} T(K)={dβα2(2Φ(x)dx)}1/(d+4).
对于 T ( K ) T(K) T(K),在知道估计中的核函数类型后,可以计算出来,并得到最优窗宽 h o p t h_{opt} hopt.以下给出不同核函数的 T ( K ) T(K) T(K):

K e r n e l Kernel Kernel d d d T ( K ) T(K) T(K)
K n K_n Kn高斯核21
K n K_n Kn高斯核d { 4 / ( d + 2 ) 1 / ( d + 4 ) } \{4/(d+2)^{1/(d+4)}\} {4/(d+2)1/(d+4)}
K e K_e Ke(Epanechinikow)22.40
K e K_e Ke(Epanechinikow)d { 8 c d − 1 ( d + 4 ) ( 2 π ) } 1 / ( d + 4 ) \{8c_d^{-1}(d+4)(2\sqrt{\pi}) \}^{1/(d+4)} {8cd1(d+4)(2π )}1/(d+4)
K 2 K_2 K2二次22.78
K 3 K_3 K3三次23.12
  • 15
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Infinity343

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值