机器学习岭回归

最新推荐文章于 2024-09-21 10:37:30 发布

call me Patrick

最新推荐文章于 2024-09-21 10:37:30 发布

阅读量475

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_49005782/article/details/116725375

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

机器学习之岭回归

在线性回归模型中，有一个致命的问题，就是对于估计参数 $\omega = (X^TX)^{-1}X^TY$ ，如果 $X^TX)$ 它不可逆那么就会导致无法求出这个参数，另外如果 $X^TX|$ 月接近与0，会使得回归系数趋近于无穷大，这样也是无意义的。为了解决这类问题，我们可以使用岭回归。

另外还有一个问题，那就是过拟合问题，对于样本而言往往会出现数据的量不多，但有非常多的特征，那么这时候就很容易造成过拟合，这种过拟合的表现就是，在训练样本中表现的非常好，一到测试样本使，效果非常差，这也是我们所说的“泛化能力”差。

为了解决这类问题，有以下三种常见方式：

增加数据
特征选择/特征提取
正则化

正则化框架：
$argmin_w[L(w)+\lambda P(w)]$
其中 $L (w)$ 是损失函数， $P (w)$ 是惩罚函数
$L(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2}$
对于惩罚函数，有两种常见的处理方式：

$L_1:Lasso:P(w)=||w||$
$L_2:Ridge:P(w)=||w||^2=w^Tw$

其中 $L_2$ 又称为权值衰减

依照上面的框架，对于岭回归，写出正则化框架式：
$J(w)=\sum_{i=1}^{N}{||w^Tx_i-y_i||^2}+\lambda w^Tw$

$=(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw$

$=w^TX^TXw-2w^TX^TY+YY^T+\lambda w^Tw$

$=w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY$

那么求 $w$ 的最值，它可以表示为：
$w=argmin_wJ(w)$
$令\frac{∂J(w)}{∂w}=2(X^TX+\lambda I)w-2X^TY=0$

于是我们得到 $w=(X^TX+\lambda I)^{-1}X^TY$ ，其中 $L_2$ 范数惩罚项的加入使得 $(X^TX+\lambda I)$ 满秩，那么就保证了可逆性，使得回归系数 $\beta$ 的估计不再是无偏估计。所以岭回归是以放弃无偏性、降低精度为代价解决病态矩阵问题的回归方法。

最小二乘估计实际上是等效于噪声是服从于高斯分布的极大似然估计

那么我们从贝叶斯角度来看岭回归： $\varepsilon$ 表示的是白噪声
$对于线性回归方程：f(w)=w^Tx$

$y=w^Tx+\varepsilon 其中\varepsilon是白噪声，且有\varepsilon\sim N(0,\sigma^2)$

$那么有：y|x;w\sim N(w^Tx,\sigma^2)$

在贝叶斯理论中有： $w\sim N(0,\sigma_0^2)$
$p(w|y)=\frac{p(y|w)*p(w)}{p(y)}$

$MAP:w=argmax_wp(w|y)$

$p (y)$ 和 $w$ 无关，可以认为是一个常量，那么上式可以变为：
$w=argmax_wp(y|w)*p(w)$

$另外已知p(y|w)和p(w)都是服从正态分布，因此有p(w|y)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-w^Tx)^2}{2\sigma^2}},p(w)=\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{||w||^2}{2\sigma_0^2}}$