核岭回归(Kernel Ridge Regression)

最新推荐文章于 2025-03-22 08:51:39 发布

Jie Qiao

最新推荐文章于 2025-03-22 08:51:39 发布

阅读量1w

点赞数 5

分类专栏：机器学习人工智能文章标签：岭回归核岭回归线性回归

本文链接：https://blog.csdn.net/a358463121/article/details/94903307

版权

人工智能同时被 2 个专栏收录

51 篇文章

订阅专栏

机器学习

12 篇文章

订阅专栏

本文深入探讨了岭回归的基本原理及其与高斯过程的关系，同时介绍了如何通过核技巧将其扩展到非线性问题，即核岭回归。文章详细解析了岭回归的损失函数和最优解推导，展示了其与高斯过程的内在联系，并讨论了它与HSIC之间的关联。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ridge Regression

我们先考虑最简单的线性回归问题，

$y=\mathbf{w}^{T} x+\epsilon ,\ \epsilon \sim \mathcal{N}( 0,\sigma ) ,w_{i} \sim \mathcal{N}( 0,1)$

于是，我们参数w估计的loss函数可以写作：

$J(\mathbf{w}) =(\mathbf{y} -\mathbf{Xw})^{T}(\mathbf{y} -\mathbf{Xw}) +\lambda \| \mathbf{w} \| ^{2}$

其中X是一个样本矩阵，每一行是一个样本，y则是label的向量。
于是我们求他的最优值：

$\begin{aligned} \nabla _{\mathbf{w}} J(\mathbf{w}) & =\nabla _{\mathbf{w}} tr\left((\mathbf{y} -\mathbf{Xw})^{T}(\mathbf{y} -\mathbf{Xw})\right) +2\lambda \mathbf{w}\\ & =\nabla _{\mathbf{w}} tr\left(\left(\mathbf{y}^{T} -\mathbf{w}^{T}\mathbf{X^{T}}\right)(\mathbf{y} -\mathbf{Xw})\right) +2\lambda \mathbf{w}\\ & =\nabla _{\mathbf{w}} tr\left(\mathbf{y^{T} y} -\mathbf{y^{T} Xw} -\mathbf{w^{T} X^{T} y+w^{T} X^{T} Xw}\right) +2\lambda \mathbf{w}\\ & =-\mathbf{X^{T} y} -\mathbf{X^{T} y} +2\mathbf{X^{T} Xw} +2\lambda \mathbf{w}\\ & =-2\mathbf{X^{T} y} +2\left(\mathbf{X^{T} X} +\lambda \mathbf{I}\right)\mathbf{w} =0\\ \mathbf{w} & =\mathbf{\left( X^{T} X +\lambda I\right)^{-1} X^{T} y} \end{aligned}$

Kernel Ridge Regression

这个形式因为有一项X没有办法写成内积的形式，所以我们需要将其转换，这里用到一个Matrix inversion lemma (MLAPP Page 117)的引理：

Matrix inversion lemma: 考虑一个一般的矩阵分割 $\mathbf{M} =\left(\begin{array}{ l l } \mathbf{E} & \mathbf{F}\\ \mathbf{G} & \mathbf{H} \end{array}\right)$ ，假设E和H都是可逆的于是有

$\begin{aligned} \left(\mathbf{E} -\mathbf{FH}^{-1}\mathbf{G}\right)^{-1} & =\mathbf{E}^{-1} +\mathbf{E}^{-1}\mathbf{F}\left(\mathbf{H} -\mathbf{GE}^{-1}\mathbf{F}\right)^{-1}\mathbf{GE}^{-1}\\ \left(\mathbf{E} -\mathbf{FH}^{-1}\mathbf{G}\right)^{-1}\mathbf{FH}^{-1} & =\mathbf{E}^{-1}\mathbf{F}\left(\mathbf{H} -\mathbf{GE}^{-1}\mathbf{F}\right)^{-1}\\ \left| \mathbf{E} -\mathbf{FH}^{-1}\mathbf{G}\right| & =\left| \mathbf{H} -\mathbf{GE}^{-1}\mathbf{F}\left\Vert \mathbf{H}^{-1}\right\Vert \mathbf{E}\right| \end{aligned}$

我们使用第二条逆的公式对上述w的最优解进行化简，令 $\displaystyle \mathbf{H}^{-1} \triangleq \mathbf{\lambda ^{-1} I} ,\mathbf{F} \triangleq \mathbf{X^{T}} ,\mathbf{G} \triangleq -\mathbf{X} ,\mathbf{E} \triangleq \mathbf{I}$ ，于是

$\left(\mathbf{E} -\mathbf{FH}^{-1}\mathbf{G}\right)^{-1}\mathbf{FH}^{-1} =\left(\mathbf{I+X^{T} \lambda ^{-1} X}\right)^{-1}\mathbf{X^{T} \lambda ^{-1}} =\left(\mathbf{\lambda I+X^{T} X}\right)\mathbf{^{-1} X^{T}}$

使用公式:

$\begin{aligned} \mathbf{w} & =\mathbf{\left( X^{T} X +\lambda I\right)^{-1} X^{T} y}\\ & =\mathbf{X^{T}}\left(\mathbf{\lambda I} +\mathbf{XX^{T}}\right)^{-1} \mathbf{y} \end{aligned}$

现在，距离kernel化很接近了，我们剩下的任务就是当一个新的样本进来时，比如说 $\displaystyle x^{*}$ ，想要预测 $\displaystyle y^{*}$ ，现在，为了更清晰展示kernel化的过程，我们将w写成向量求和的形式，设

$\boldsymbol{\alpha } \triangleq (\mathbf{K} +\lambda \mathbf{I}_{N})^{-1}\mathbf{y}$

于是w可以改写为

$\mathbf{w} =\mathbf{X}^{T}\boldsymbol{\alpha } =\sum ^{N}_{i=1} \alpha _{i}\mathbf{x}_{i}$

我们发现w其实只是所有样本的一个加权平均。于是，对于一个新样本的预测值为：

$y^{*} =\mathbf{w}^{T} x^{*} =\sum ^{N}_{i=1} \alpha _{i}\mathbf{x}^{T}_{i} x^{*} =\sum ^{N}_{i=1} \alpha _{i} k\left( x^{*}\mathbf{,x}_{i}\right)$

预测也只是新样本与所有旧样本内积的加权平均。

与高斯过程的联系

一个值得说明的事情是，ridge regression跟高斯过程是有很深刻的联系的，因为高斯过程就是假设所有的参数还有变量都是高斯分布，而同样的ridge也是假设w的先验分布是高斯分布（见），唯一区别是，ridge regression只考虑了预测y的均值，而没有考虑预测y的方差。在高斯过程中我们要预测y*的分布 $\displaystyle p\left( y^{*} |y,x,x^{*}\right)$ 是一个高斯分布，而这个高斯分布的均值就是ridge regression的预测值。