非参数统计中的核平滑方法/Kernel smoother

最新推荐文章于 2024-05-21 10:23:54 发布

一只干巴巴的海绵

最新推荐文章于 2024-05-21 10:23:54 发布

阅读量7.9k

点赞数 3

分类专栏：统计

本文链接：https://blog.csdn.net/Hanx09/article/details/105176846

版权

统计专栏收录该内容

5 篇文章 8 订阅

订阅专栏

Kernel Smoother

核函数 $K_{h_\lambda}(X_0,X)$ 定义为
$K_{h_\lambda}(X_0,X)=D(\frac{||X-X_0||}{h_\lambda(X_0)})$
其中， $X,X_0\in\mathbb{R}^p$ ， $||\cdot||$ 为欧拉范数， $h_\lambda(X_0)$ 为参数（核半径 kernel radius）， $D (t)$ 通常是正实值函数，关于 $X-X_0||$ 非增。
kernel function
设 $f(x):\mathbb{R}^p\rightarrow \mathbb{R}$ 为 $x$ 的连续函数，样本 ${(x_i,Y_i),i=1,...,n\}$ 来自
$Y_i=f(x_i)+\epsilon_i$
对任意 $x_0\in\mathbb{R}^p$ ，Nadaraya-Watson核加权平均（ $f (x)$ 的估计）定义为，
$\hat{f}(x_0)=\frac{\sum_{i=1}^nK_{h_\lambda}(x_0,x_i)Y_i}{\sum_{i=1}^nK_{h_\lambda}(x_0,x_i)}$
下面介绍几种特殊的核平滑方法。

1. Nearest neighbor smoother

近邻平滑器的思想是：对任意的点 $x_0$ ，选取其 $m$ 个最近邻函数值的平均值作为 $f(x_0)$ 的估计。具体地，
$h_m(x_0)=||x_0-x_{[m]}||$
其中 $x_{[m]}$ 为 $x_0$ 的第 $m$ 个近邻，
$D(t)=\begin{cases} \frac{1}{m},\quad |t|\leq 1\\ 0,\quad otherwise\end{cases}$

上图中，红色的点为 $x_0$ 的 $m$ 个近邻， $f(x_0)$ 的估计为这些红点函数值的加权平均。
这种方法得到的估计不是很光滑。

2. Kernel average smoother

核平均平滑器的思想是：对任意的点 $x_0$ ，选取一个常数距离 $\lambda$ （核半径，或1维情形的窗宽），然后计算到 $x_0$ 的距离不超过 $\lambda$ 的数据点的加权平均（权：离 $x_0$ 越近，权重越大）作为 $f(x_0)$ 的估计。具体地，
$h_\lambda(x_0)=\lambda=constant$
$D (t)$ 为任一核函数。在这里插入图片描述
对任意 $x_0$ ，窗宽是固定的，每个数据点的权重由黄色区域显示。
可以看出，这种方法得到的估计是光滑的，但是边界点函数值的估计是有偏的，这是因为在边界点处的左邻域与右邻域内的数据点不均匀导致的（只用到了单边邻域的信息）。

3. Local linear regression

Nearest neighbor smoother与Kernel average smoother均假设 $f (x)$ 在很小的局部区间内是常数，因此可以通过邻域内函数值的加权平均估计函数。局部线性回归假设局部邻域内函数值是一条直线（高维情形是超平面），而不是常数（水平面），因此，局部线性回归方法首先在局部拟合一条直线，然后取 $x_0$ 在这条直线上的值作为 $f(x_0)$ 的估计。具体地，
$h_\lambda(x_0)=\lambda=constant$
求解如下加权最小二乘问题（一维情形）
$\alpha_0,\beta_0=\arg\min_{\alpha(x_0),\beta(x_0)}\quad \sum_{i=1}^n K_{h_\lambda}(x_0,x_i)(Y_i-\alpha(x_0)-\beta(x_0)x_i)^2$
$f(x_0)$ 的估计：
$\begin{aligned} \hat{f}(x_0)&=\alpha_0+\beta_0x_0\\ &=(1,x_0)(B^TW(x_0)B)^{-1}B^TW(x_0)y \end{aligned}$
其中，
$y=(Y_1,...,Y_n)^T,W(x_0)=diag(K_{h_\lambda}(x_0,x_i))_{n\times n}$

$B^T=\left( \begin{matrix}1&1&...&1\\ x_1&x_2&...&x_n \end{matrix}\right)$
在这里插入图片描述
可以看出，这种方法得到的估计是光滑的，并且边界点处的估计也是无偏的。

4. Local polynomial regression

局部多项式回归假设局部邻域内函数是一个多项式函数，对一维情形，需极小化
$\alpha_0,\beta_{j,0}=\arg\min_{\alpha(x_0),\beta_j(x_0),j=1,...,d}\quad \sum_{i=1}^n K_{h_\lambda}(x_0,x_i)(Y_i-\alpha(x_0)-\sum_{j=1}^d\beta_{j,0}x_0^j)^2$
$f(x_0)$ 的估计：
$\hat{f}(x_0)=\alpha_0+\sum_{j=1}^d\beta_{j,0}x_0^j$