机器学习系列：线性回归

最新推荐文章于 2024-05-28 13:06:14 发布

不一样的等待12305

最新推荐文章于 2024-05-28 13:06:14 发布

阅读量129

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_39068872/article/details/105077771

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1. 基本的线性回归

假设数据集为： $\mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)}$ 要注意，这里的 $x_i$ 表示的是 $(x_{i1},x_{i2},\cdots,x_{im})$ 是一个向量
后面我们记： $X=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T$ 线性回归假设： $f(w)=w^Tx$
对这个问题，采用二范数定义的平方误差来定义损失函数： $L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2$ 展开得到：
$\begin{aligned} L(w)&=(w^Tx_1y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T \\ &=(w^TX^T-Y^T)\cdot (Xw-Y)\\&=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{aligned}$ 最小化这个值的 $\hat{w}$ ：
$\begin{aligned} \hat{w}=\mathop{argmin}\limits_wL(w) &\longrightarrow\frac{\partial}{\partial w}L(w)=0\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{aligned}$
这个式子中 $X^TX)^{-1}X^T$ 又被称为伪逆。对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $X$ 求奇异值分解，得到 $X=U\Sigma V^T$ 于是： $X^+=V\Sigma^{-1}U^T$

2.加入正则化

在实际应用时，如果样本容量不远远大于样本的特征维度，很可能造成过拟合，对这种情况，我们有下面三个解决方式：

加数据
特征选择（降低特征维度）如 PCA 算法。
正则化
这里只看正则化，正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚），下面我们介绍一般情况下的两种正则化框架。
$\begin{aligned} L1&:\mathop{argmin}\limits_wL(w)+\lambda||w||_1,\lambda\gt0\\ L2&:\mathop{argmin}\limits_wL(w)+\lambda||w||^2_2,\lambda \gt 0 \end{aligned}$ 下面对最小二乘误差分别分析这两者的区别。

2.1 L1 Lasso

L1正则化可以引起稀疏解。

从最小化损失的角度看，由于 L1 项求导在0附近的左右导数都不是0，因此更容易取到0解。

从另一个方面看，L1 正则化相当于： $\mathop{argmin}\limits_wL(w)\ s.t. ||w||_1\lt C$ 我们已经看到平方误差损失函数在 $w$ 空间是一个椭球，因此上式求解就是椭球和 $w||_1=C$ 的切点，因此更容易相切在坐标轴上。

2.2 L2 Ridge

$\begin{aligned} \hat{w}=\mathop{argmin}\limits_wL(w)+\lambda w^Tw&\longrightarrow\frac{\partial}{\partial w}L(w)+2\lambda w=0\\ &\longrightarrow2X^TX\hat{w}-2X^TY+2\lambda \hat w=0\\ &\longrightarrow \hat{w}=(X^TX+\lambda \mathbb{I})^{-1}X^TY \end{aligned}$

可以看到，这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以是模型选择 $w$ 较小的参数，同时也避免 $X^TX$ 不可逆的问题。

不一样的等待12305

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列：线性回归

1. 基本的线性回归假设数据集为： D=(x1,y1),(x2,y2),⋯ ,(xN,yN) \mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)} D=(x1,y1),(x2,y2),⋯,(xN,yN)要注意，这里的xix_ixi表示的是(xi1,xi2,⋯ ,xim)(x_{i1},x_{i2},\cdots,x_{im})(...
复制链接

扫一扫