补充：基展开与核方法

最新推荐文章于 2023-12-04 20:43:13 发布

梅九九

最新推荐文章于 2023-12-04 20:43:13 发布

阅读量556

点赞数 2

分类专栏：统计学习

本文链接：https://blog.csdn.net/qq_52737544/article/details/116896766

版权

统计学习专栏收录该内容

10 篇文章 26 订阅

订阅专栏

文章目录

基展开与核方法

基展开与核方法

基展开

线性的回归：
$y=\boldsymbol X\boldsymbol\beta+\varepsilon\ \ ,\ \ \varepsilon\sim(0,\sigma^2)$
“光滑回归”：
$y=f(X)+\varepsilon\\f(X)=E(y|X)$
记 $h_m(X)$ 为 $X$ 的第m个变换， $m=1,\cdots,M$ ，然后建立 $X$ 的线性基展开（linear basis expansion） 模型：
$f(X)=\sum_{m=1}^M\beta_mh_m(X)$
例如：
$f(X)=\beta_0+\beta_1X+\beta_2X^2\\f(x)=\beta_0+\beta_1\sin(X)+\beta_2\cos(X)$

分段多项式和样条

分段常数基函数：
$h_1(X)=I(X<\xi_1),h_2(X)=I(\xi_1\leq X<\xi_2),h_3(X)=I(\xi_2\leq X)$
按局部平均值进行拟合。

结合约束条件的分段线性基函数：
$h_1(X)=1,h_2(X)=X,h_3(X)=(X-\xi_1)_+,h_4(X)=(X-\xi_2)_+$
分段三次样条多项式拟合基函数：
$h_1(X),h_2(X)=X,h_3(X)=X^2,h_4(X)=X^3,h_5(X)=(X-\xi_1)^3_+,h_6(X)=(X-\xi_2)^3_+$

光滑样条

要极小化罚残差的平方和：
$RSS(f,\lambda)=\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda\int\{f''(t)\}^2dt$
由于解是自然样条，可以写成：
$f(x)=\sum_{j=1}^NN_j(x)\theta_j$
$N_j(x)$ 是表示该族自然样条的基函数的 $N$ 维集合。
$RSS(\theta,\lambda)=(\boldsymbol y-\boldsymbol N\boldsymbol\theta)^T(\boldsymbol y-\boldsymbol N\theta)+\lambda\boldsymbol\theta^T\boldsymbol\Omega_N\boldsymbol\theta$
其中 $\{\boldsymbol N_{ij}\}=N_j(x_i),\{\boldsymbol \Omega_N\}_{jk}=\int N''_j(t)N''_k(t)dt$ ，上述式子均为矩阵形式。容易得到最优解为（即使得RSS最小）：
$\hat{\boldsymbol\theta}=(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y\\\hat f(x)=\sum_{j=1}^NN_j(x)\hat\theta_j$

自由度和光滑矩阵

记训练预测子 $x_i$ 上的拟合值 $\hat f(x_i)$ 的 $N$ 向量为 $\boldsymbol{\hat f}$ ，则
$\boldsymbol{\hat f}=\boldsymbol N(\boldsymbol N^T\boldsymbol N+\lambda\boldsymbol\Omega_N)^{-1}\boldsymbol N^T\boldsymbol y=\boldsymbol{S_{\lambda}}\boldsymbol y$
有限线性算子 $\boldsymbol{S_{\lambda}}$ 称为光滑子矩阵，其仅依赖于 $x_i$ 和 $\lambda$ 。

定义光滑样条的有效自由度为（effective degrees of freedom ，EDF）：
$df_\lambda=trace(\boldsymbol{S_\lambda})$
即为 $\boldsymbol{S_\lambda}$ 的对角线元素之和。

$\boldsymbol{S_\lambda}$ 是对称的和半正定的。

多维样条函数

假定 $X\in\boldsymbol N^2$ ，有表示坐标 $X_1$ 的函数基 $h_{1k}(X_1),k=1,\cdots,M_1$ ，有表示坐标 $X_2$ 的函数基 $h_{2k}(X_2),k=1,\cdots,M_2$ ，则由
$g_{jk}(X)=h_{1j}(X_1)h_{2k}(X_2),j=1,\cdots,M_1$
定义的 $M_1\times M_2$ 维张量积基可以用来表示二维函数：
$g(X)=\sum_{j=1}^{M_1}\sum_{k=1}^{M_2}\theta_{jk}g_{jk}(X)$
此时建立问题：
$\min_f\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda J[f]$
$J$ 是稳定 $\boldsymbol R^d$ 上函数 $f$ 的罚泛函。例如，对于 $\boldsymbol R^2$ 上的函数：
$J[f]=\int\int_{\boldsymbol R^2}[(\frac{\partial^2f(x)}{\partial x_1^2})^2+2(\frac{\partial^2f(x)}{\partial x_1\partial x_2})+(\frac{\partial^2f(x)}{\partial x_2^2})^2]dx_1dx_2$
解形如：
$f(x)=\beta_0+\boldsymbol\beta^T\boldsymbol x+\sum_{j=1}^N\alpha_jh_j(x)\\h_j(x)=\eta(||x-x_j||)\\\eta(z)=z^2\log z^2$
$h_j$ 是径向基函数（radial basis functions）。

核方法

模型与数据：
$E(Y|x)=f(x)\\y_i=f(x_i)+\varepsilon_i\\f(x_0)=E(Y|x_0)$
将k-最近邻平均：
$\hat f(x)=Ave(y_i|x_i\in N_k(x))$
作为回归函数 $E (Y ∣ X = x)$ 的估计，这里 $N_k(x)$ 是平方距离最邻近 $x$ 的k个点的集合，Ave表示取平均值。

使用Nadaraya-Watson的核加权平均：
$\hat f(x_0)=\frac{\sum_{i=1}^NK_\lambda(x_0,x_i)y_i}{\sum_{i=1}^NK_\lambda(x_0,x_i)}\\K_\lambda(x_0,x)=D(\frac{|x-x_0|}{\lambda})\ \ 更一般的，K_\lambda(x_0,x)=D(\frac{|x-x_0|}{h_\lambda(x_0)})$
选择核：
$Epanichakov:D(t)=\begin{cases}\frac{3}{4}(1-t^2),|t|\leq1\\0,其他\end{cases}\\tri − cube:D(t)=\begin{cases}(1-|t|^3)^3,|t|\leq1\\0,其他\end{cases}\\Gaussian:D(t)=\phi(t)=\frac{1}{\sqrt{2\pi}}\exp(-t^2/2)$

局部线性回归

在每个目标点 $x_0$ 解一个单独的加权最小二乘方问题：
$\min_{\alpha(x_0),\beta(x_0)}\sum_{i=1}^NK_\lambda(x_0,x_i)[y_i-\alpha(x_0)-\beta(x_0)x_i]^2$
估计则是：
$\hat f(x_0)=\hat\alpha(x_0)+\hat\beta(x_0)x_0$
定义向量值函数 $b(x)^T=(1,x)$ 。设 $\boldsymbol B$ 是 $N\times2$ 回归矩阵，第 $i$ 行为 $b(x_i)^T$ ， $\boldsymbol W(x_0)$ 是 $N\times N$ 对角矩阵，第 $i$ 个对角线元素为 $\boldsymbol K_\lambda(x_0,x_i)$ ，即：
$\boldsymbol X=\left[\begin{matrix}1&x_1\\1&x_2\\\vdots&\vdots\\1&x_N\end{matrix}\right]=\boldsymbol B\\\boldsymbol W(x_0)_{ii}= \boldsymbol K_\lambda(x_0,x_i),W(x_0)_{ij}=0,i\neq j$
则有：
$\hat f(x_0)=b(x_0)^T(\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol B)^{-1}\boldsymbol B^T\boldsymbol W(x_0)\boldsymbol y=\sum_{i=1}^Nl_i(x_0)y_i\\E\hat f(x_0)=\sum_{i=1}^Nl_i(x_0)f(x_i)=f(x_0)\sum_{i=1}^Nl_i(x_0)+f'(x_0)\sum_{i=1}^N(x_i-x_0)l_i(x_0)+\frac{f''(x_0)}{2}\sum_{i=1}^N(x_i-x_0)^2l_i(x_0)+R$
余项 $R$ 涉及 $f$ 的三阶或更高阶导数。且有：
$\sum_{i=1}^Nl_i(x_0)=1,\sum_{i=1}^N(x_i-x_0)l_i(x_0)=0$
上上式仅依赖于 $f$ 的展开式中的二次或更高次项。

核方法分类

假定有从概率密度 $f_X(x)$ 提取的随机样本 $x_1,\cdots,x_N$ ，估计 $x_0$ 上的 $f_X$ ， $X\in\boldsymbol R$ ，一种自然的局部估计具有如下形式：
$\hat f_X(x_0)=\frac{\#\{x_i\in N_\lambda(x_0)\}}{N\lambda}$
$N_\lambda(x_0)$ 是 $x_0$ 周围宽度为 $\lambda$ 的较小度量邻域。

光滑的Parzen估计：
$\hat f_X(x_0)=\frac{1}{N\lambda}\sum_{i=1}^NK_\lambda(x_0,x_i)$
设 $\phi_\lambda$ 表示具有均值0和标准差 $\lambda$ 的高斯密度，则上式有如下形式：
$\hat f_X(x_0)=\frac{1}{N}\sum_{i=1}^N\phi_\lambda(x_0-x_i)=(\hat F\star\phi_\lambda)(x_0)\\\hat F(x)=\frac{1}{N}\sum_{i=1}^NI\{x_i\leq x\}$
这是样本经验分布 $\hat F$ 与 $\phi_\lambda$ 的卷积。

假定对于 $J$ 类问题，分别在每个类上拟合非参数密度估计 $\hat f_j(X),j=1,\cdots,J$ ，并且还有每个类的先验 $\hat\pi_j$ 的估计，则
$Pr(Y=j|X=x_0)=\frac{\hat\pi_j\hat f_j(x_0)}{\sum_{k=1}^J\hat\pi_k\hat f_k(x_0)}\\\hat f_j(x)=\prod_{k=1}^p\hat f_{jk}(x_k)$