机器学习（一）——线性回归和梯度下降

最新推荐文章于 2022-03-28 22:17:21 发布

千星晔

最新推荐文章于 2022-03-28 22:17:21 发布

阅读量562

点赞数

文章标签：机器学习线性回归随机梯度下降

本文链接：https://blog.csdn.net/m0_46231143/article/details/122378103

版权

机器学习（一）——线性回归和梯度下降

线性回归
梯度下降

线性回归

定义

什么是线性回归（Linear Regression）？说的通俗易懂一点，就像高中数学在一个平面内给出了一堆点，让我们找到一个最符合的直线来描述。线性回归就是让我们找到一个最合适的线性函数来描述给出的数据。
在这里插入图片描述

模型

输入： $\mathcal{X}=\{x_i\}_{i=1}^N,x_i \in \mathbb{R}^m$
其中N是数据个数， $x_i$ 包含m个特征属性。

输出： $\mathcal{Y}=\{y_i\}_{i=1}^N,y_i \in \mathbb{R}$

对于loss我们有不同的计算方式，我们可以用 $l(\hat{y_i},y_i)=|\hat{y_i}-y_i|$ ，也可以用 $l(\hat{y_i},y_i)=\frac{1}{2}(\hat{y_i}-y_i)^2$ 。这里我们使用的是第二种。
Loss function: $\mathcal{L}_D(W)=\sum_{i=1}^Nl(\hat{y_i},y_i)$
$\mathcal{L}_D$ 的大小表示函数拟合的效果，其值越小说明函数拟合的越好，因此我们需要寻找 $\mathcal{L}_D$ 的最小解 $f^*=\mathop{argmin}\limits_{f}\sum_{i=1}^Nl(\hat{y_i},y_i)$

因此我们需要通过学习得到模型函数：
$f(x;w,b)=w_1x_1+...w_mx_m+b =\sum_{i=1}^mw_ix_i+b =w^T+b$
也就是算出 $w^*,b^*=\mathop{argmin}\limits_{w,b}\mathcal{L}_D(w,b)$

闭式解

为了简化证明过程，我们引入了增广矩阵和增广向量。
$X=(x_1,x_2,...,x_i,...,x_n)^T$
$x_i=(1,x_{i1},x_{i2},...,x_{im})$
$w=(b,w_1,w_2,...,w_n)^T$
因此可以得到 $\mathcal{L}_D(w)=\frac{1}{2}||Y-Xw||_2^2$ ，证明过程如下：
在这里插入图片描述
闭式解求解过程如下：

由于 $\mathcal{L}_D(w)$ 是凸函数，所以 $\frac{\partial \mathcal{L}_D(w)}{\partial w}=0$ 时即为所需解。

因此可以得到闭式解 $w^*=\mathop{argmin}\limits_{w}\mathcal{L}_D(w)=(X^T X)^{-1}X^Ty$

但是如果遇到矩阵不可逆的情况则该结论不适用，这里就不加以讨论了。

梯度下降

定义

所谓梯度下降，简单来说就是通过下降方向来调整参数以得到最佳解的过程。那么我们需要做的就是寻找梯度下降方向以及设置步长。
在这里插入图片描述
如何找到一个可行的搜索方向？如何设置一个合适的步长 $\eta$ ？

Descent Direction

我们用 $d=-\frac{\partial \mathcal{L}_D(w)}{\partial w}$ 来描述下降方向， $\mathcal{L}_D(w^,)=\mathcal{L}_D(w+\eta d)\leq \mathcal{L}_D(w)$ 结合高中数学知识应该很好理解。
在这里插入图片描述