多维核密度估计

最新推荐文章于 2024-08-15 04:06:28 发布

Infinity343

最新推荐文章于 2024-08-15 04:06:28 发布

阅读量7.8k

点赞数 15

分类专栏：非参数统计

本文链接：https://blog.csdn.net/qq_44638724/article/details/105564654

版权

非参数统计专栏收录该内容

5 篇文章 18 订阅

订阅专栏

多元核密度估计

承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。

定义

给定一组样本 $\bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \}$ 且都是 $d$ 维的向量,并且取自同一个连续分布 $f(\bm{x})$ ,则在任意点 $\bm{x}$ 处的核密度估计为:
$\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h^d} K\left( \frac{\bm{x-\bm{X}_i}}{h} \right)$
$f(\bm{x})$ 是一个 $d$ 维随机变量的密度函数. $K(\cdot)$ 是定义在 $d$ 维空间上的核函数,即 $K:\reals^d \to \reals_+$ ,并满足：
$K(\bm{x}) \geqslant 0, \int K(\bm{x})\rm{d}\bm{u}=1.$
更一般的形式有:
$\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h_1\cdot \dots \cdot h_n} K\left( \frac{\bm{x}_1-\bm{X}_1}{h_1},\cdots, \frac{\bm{x}_n-\bm{X}_n}{h_n} \right)$
最一般的形式有:
$\hat{f_\bold{H}}(\bm{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{\rm{det}(\bold{H})}K\{ \bold{H}^{-1}(\bm{x}-\bm{X}_i) \}$
其中 $\bold{H}$ 是对称的窗宽矩阵.

核函数的类型

设随机变量 $\bm{u}=\{ u_1,\cdots,u_d\}^{\rm{T}}$

乘积核
$K(\bm{u})=K(u_1)\cdot \ldots \cdot K(u_d)$
放射或对称核
$K(\bm{u})=\frac{K(\lVert \bm{u}\rVert)}{\int_{\R^d}K(\lVert \bm{u}\rVert)d\bm{u}} 其中(\lVert \bm{u}\rVert\stackrel{定义}{=}\sqrt{\bm{u}^{\rm{T}}\bm{u}})$

最优窗宽

参照一维条件下的最优窗宽选择办法,对高维情况采用多维泰勒展开,有:
$\rm{Bias} \approx \frac{1}{2} \mathit{h}^2 \alpha \nabla^2 \mathit{f}(\bm{x}), V(\hat{f(\bm{x})})\approx n^{-1}h^{-d}\beta f(x)$
其中 $\alpha=\int \bm{x}^2K(\bm{x})dx,\beta=\int K(\bm{x}^2)d\bm{x}$ .因此可以得到渐进积分均方误:
$\bold{AMISE}=\frac{1}{4}h^4\alpha^2\int \nabla^2f(\bm{x})d\bm{x}+n^{-1}h^{-h}\beta.$
由此最优窗宽为:
$h_{opt}=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2f(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}n^{-1/(d+4)}$
由于上述 $f(\bm{x})$ 是未知的,当采用多维正态分布密度函数 $\varPhi(\bm{x})$ 时,最优窗口为:
$h_{opt}=T(K)n^{-1/(d+4)}$
其中 $T(K)=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2\varPhi(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}$ .
对于 $T (K)$ ,在知道估计中的核函数类型后,可以计算出来,并得到最优窗宽 $h_{opt}$ .以下给出不同核函数的 $T (K)$ :

$K e r n e l$	$d$	$T (K)$
$K_n$ 高斯核	2	1
$K_n$ 高斯核	d	${4/(d+2)^{1/(d+4)}\}$
$K_e$ (Epanechinikow)	2	2.40
$K_e$ (Epanechinikow)	d	$\{8c_d^{-1}(d+4)(2\sqrt{\pi}) \}^{1/(d+4)}$
$K_2$ 二次	2	2.78
$K_3$ 三次	2	3.12