模式识别系列（二）线性回归

最新推荐文章于 2022-12-24 11:35:57 发布

人工小智障

最新推荐文章于 2022-12-24 11:35:57 发布

阅读量670

点赞数 2

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/qq_45657975/article/details/118719488

版权

1.线性回归

1.1什么是线性回归

线性回归的定义准确来说使用线性的回归方程，利用最小二乘的方式，对一元或多元变量的函数进行拟合。所谓回归，实际上就是拟合一个函数。在实际生活中，线性回归被应用于值预测和分类问题。举一个简单的例子，大部分出租车有个起步价，随着公里数变多，费用变高，那么做出租车要花多少钱呢？很简单，费用 $y$ 可以写成 $y = k x + b$ ,其中 $x$ 是乘坐出租车的公里数，如果我们获得的数据是公里数 $x$ 和费用 $y$ ，要求是给一个 $x$ 算出一个 $y$ ,通过最小二乘法拟合出的这条直线就是回归的结果。另一方面，如果我们将标签的+1和-1当做值，就可以做分类问题了。当然，线性回归做分类并不太好用，logistic回归会是更好选择，因为最小二乘法使用的是平方误差，不难想象，一个异常值造成的偏差影响是很大的。

1.2线性回归的最优解

下面我们可以开始愉快的推公式环节了，导出理论上的线性回归的最优解。
首先我们假设变量， $\mathbf{x}_i$ 为一个样本的特征向量，假设有D+1个维度（最后一个维度是1，为了把常数项放进来）， $\mathbf{X} = (\mathbf{x}_1,\mathbf{x}_2,...,\mathbf{x}_n)^T$ 为样本组成的nd+1的矩阵，而 $\mathbf{w}$ 是待求的d+1维的权重，或者说回归系数， $y_n$ 是第n个样本对应的输出值， $\mathbf{Y}$ 是输出值构成的n1矩阵， $\mathbf{\hat{Y}}$ 则是预测的输出值。最小二乘法其实说穿了就是在优化这么一个损失函数,使之最小：
$\frac{1}{N}\sum_{i=1}^n(\hat{y_n} - y_n)^2$
将我们假设的变量带入，并且略去不影响结果的系数项，我们得到：
$(\mathbf{X}\mathbf{w} - \mathbf{Y})^2$
而我们要求的就是：
$\begin{aligned} \underset{\mathbf{w}}{\min}\quad E(\mathbf{w})&=(\mathbf{X}\mathbf{w} - \mathbf{Y})^T(\mathbf{X}\mathbf{w} - \mathbf{Y})\\ &=\mathbf{w}^T\mathbf{X}^T\mathbf{X}\mathbf{w} -2\mathbf{w}^T\mathbf{X}^T \mathbf{Y}+\mathbf{Y}^T\mathbf{Y} \end{aligned}$
自然而然的，我们可以想到对 $\mathbf{w}$ 求导，令 $\frac{\partial E}{\partial \mathbf{w}} = 0$ ,不会矩阵求导的朋友可以参考Matrix Cookbook。求导后得到如下的结果：
$2\mathbf{X}^T\mathbf{X}\mathbf{w} - 2\mathbf{X}^T\mathbf{Y} = 0$
当样本数量大于特征维度时， $\mathbf{X}^T\mathbf{X}$ 是满秩矩阵，因此可以求逆，得到 $\mathbf{w}$ 的解：
$\mathbf{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}$
在这里解释一下这个解，最小二乘法是可以给出最优解的。这个 $\mathbf{w}$ 就代表着在当前样本下，使得样本均方误差最小的解，这是全局的最优解，是唯一且确定的。

2.梯度下降法

2.1什么是梯度下降法

上一节我们推导出了线性回归问题的最优解，那么是不是就此万事大吉了呢？显然不是这样，否则也没必要提出梯度下降的方法（梯度下降法可以用于很多的损失函数，本篇仅针对线性回归）。上节导出的最优解最要命的是有一个求逆的运算，而我们知道，逆矩阵的计算复杂度是 $O(n^3)$ ,当输入的特征维度很高的时候，计算逆矩阵是很困难的。因此，引入了梯度下降的概念。梯度下降法的直观理解可以参考下图：
在这里插入图片描述

2.2线性回归梯度下降法

梯度下降法的实质也是优化损失函数，线性回归梯度下降法优化的也是平方误差，区别在于最优解的求取过程中是全局的最优，而梯度下降关注的是局部最优。最小二乘拟合的时候直接求取了极值点，而梯度下降法则是在当前的 $\mathbf{w}$ 下寻找一个使损失函数变小的方向，通过迭代来完成，这样就避免了逆矩阵的求取，之前的求导过程我们得到 $\frac{\partial E}{\partial \mathbf{w}}$ ：
$\frac{\partial E}{\partial \mathbf{w}} = \mathbf{X}^T\mathbf{X}\mathbf{w} - \mathbf{X}^T\mathbf{Y}$
于是我们设定一个正的学习率 $\eta$ ，就可以得到 $\mathbf{w}$ 的更新公式：
$\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \cdot \frac{\partial E}{\partial \mathbf{w}_t}$
结合上图可以看出， $w_{t+1}$ 始终在向 $J(\theta)$ 也就是 $E (w)$ 更小的方向迭代。

2.3随机梯度下降法(SGD)

梯度下降法固然不用求导，但是每一次迭代仍然使用了所有的样本，而SGD则是选择了抽取单个样本，从而损失函数从全局变成了局部：
$\begin{aligned} &E= (\mathbf{X}\mathbf{w} - \mathbf{Y})^2 \\ &E_g = (\mathbf{x_i}^ T\mathbf{w} - y_i)^2 \end{aligned}$
于是梯度也变成了：
$\frac{\partial E}{\partial \mathbf{w_t}} = \mathbf{x_i}^T\mathbf{x_i}\mathbf{w_t} - \mathbf{x_i}^Ty_i$
更新公式：
$\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \cdot \frac{\partial E}{\partial \mathbf{w}_t}$
显然，采用了SGD计算量小了很多，但是缺点也很直观，容易受到噪声影响，收敛的速度会变慢，震荡会更加厉害。

2.4Mini-Batch

Mini-Batch可以说是SGD和BGD的折中选择，具体做法就是每一次迭代先将样本集分成若干个小的Batch，随后根据梯度下降法的公式，在每一个batch上更新梯度，这样既可以减少计算量，又可以抑制噪声，属于改进方法。我生成了两类遵从高斯分布的样本点，测试了一下梯度下降和最小二乘的结果，分类面是差不多的。在这里插入图片描述 LMS为最小二乘，SSE为梯度下降。

人工小智障

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
模式识别系列（二）线性回归

目录1.线性回归1.1什么是线性回归1.2线性回归的最优解2.梯度下降法2.1什么是梯度下降法2.2线性回归梯度下降法2.3随机梯度下降法(SGD)2.4Mini-Batch1.线性回归1.1什么是线性回归线性回归的定义准确来说使用线性的回归方程，利用最小二乘的方式，对一元或多元变量的函数进行拟合。所谓回归，实际上就是拟合一个函数。在实际生活中，线性回归被应用于值预测和分类问题。举一个简单的例子，大部分出租车有个起步价，随着公里数变多，费用变高，那么做出租车要花多少钱呢？很简单，费用yyy可以写成
复制链接

扫一扫