线性回归

zhaohui24

于 2021-02-26 23:39:33 发布

阅读量186

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_31948131/article/details/114012361

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1. 线性回归公式
2. 梯度下降
3. 模型评价
4. 正则化
5. 岭回归
6. LASSO回归
7. 实现代码

1. 线性回归公式

线性回归算法就是找到一条直线（一元线性回归）或一个平面（多元线性回归）能够根据输入的特征向量 $X$ 来更好的预测输出 $Y$ 的值，本质上 $X$ 与 $Y$ 是线性相关的。

输入数据： $\left(Y_{i}, X_{i 1}, \cdots, X_{i p}\right), \quad i=1, \cdots, n$
假设函数 (hypotheses function)： $h_{\theta}(x)=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\ldots+\theta_{n} x_{n}=\sum_{i=1}^{n} \theta_{i} x_{i}$
损失函数 (loss function)： $L(\theta)=\left(h_{\theta}(x)-y\right)^{2}$ （单个样本）
代价函数 (cost function)：
$\begin{aligned} J(\theta) &=\frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} \\ &=\frac{1}{2 n} \sum_{i=1}^{n}\left(\theta^{T} x^{(i)}-y^{(i)}\right)^{2} \\ &=\frac{1}{2 n}(X \theta-y)^{T}(X \theta-y) \end{aligned}$

最小二乘法是因为用“差的平方”来表示点和直线的误差，而不是“差的绝对值”，因为它是 最佳线性无偏估计。证明 - 链接
 参考链接 - 马同学 - 如何理解最小二乘法？

使用梯度下降法[第2章节]，使代价函数损失值最小

$\begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{\partial}{\partial \theta_{j}} \frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} \\ &=2 * \frac{1}{2 n} \sum_{i=1}^{n}\left[\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) \frac{\partial}{\partial \theta_{j}}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)\right] \\ &=\frac{1}{n} \sum_{i=1}^{n}\left[\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) \frac{\partial}{\partial \theta_{j}}\left(\sum_{f=0}^{m} \theta_{f} x_{f}^{(i)}-y^{(i)}\right)\right] \\ &=\frac{1}{n} \sum_{i=1}^{n}\left[\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}\right] \end{aligned}$

补充， $h_{\theta}\left(x^{(i)}\right)=\sum_{f=0}^{m} \theta_{f} x_{f}^{(i)}=\theta_{0} x_{0}^{(i)}+\theta_{1} x_{1}^{(i)}+ \cdots +\theta_{j} x_{j}^{(i)}+ \cdots +\theta_{m} x_{m}^{(i)}$ ， $m$ 和 $f$ 字母任意，为了和 $n$ 与 $i$ 混淆
迭代公式： $\theta_{j}:=\theta_{j}+\alpha \frac{1}{n} \sum_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$

解析解： $\hat{\theta}=\left(X^{T} X\right)^{-1} X^{T} Y$
$\begin{aligned} \partial_{\theta} J(\theta) &=\partial_{\theta}\left[\frac{1}{2}(X \theta-y)^{T}(X \theta-y)\right] \\ &=\partial_{\theta}\left[\frac{1}{2}\left(\theta^{T} X^{T}-y^{T}\right)(X \theta-y)\right] \\ &=\partial_{\theta}\left[\frac{1}{2}\left(\theta^{T} X^{T} X \theta-\theta^{T} X^{T} y-y^{T} X \theta+y^{T} y\right)\right] \\ &=\frac{1}{2}\left[2 X^{T} X \theta-X^{T} y-\left(y^{T} X\right)^{T}\right] \\ &=X^{T} X \theta-X^{T} y=0 \end{aligned}$

求参数 $\hat{\theta}$ ，发现其涉及到了矩阵的可逆问题，如果 $X^{T} X$ 可逆，那么参数 $\hat{\theta}$ 的解唯一；如果不可逆，则此时就无法使用正规方程求导的方法来解。

若 $X^{T} X$ 可逆，通过最小二乘法的矩阵算法求出 $\hat{\theta}=\left(X^{T} X\right)^{-1} X^{T} Y=X^{\dagger} Y$ ，其中 $X^{\dagger}$ 在数学上被称为伪逆，伪逆 $X^{\dagger}$ 是被 numpy 所支持，pinvX = np.linalg.pinv(X) # 计算伪逆； theta = pinvX @ y # 最小二乘法的矩阵算法

补充：

$\theta^TX^TX\theta$ 为对角矩阵， $AA^T|=|A||A^T|={|A|}^2$
向量偏导数， $\frac{\partial (\vec{x}^TA \vec{x})}{\partial \vec{x}} =2A\vec{x}, \qquad\frac{\partial A \vec{x}}{\partial \vec{x}} =A^{T}, \qquad \frac{\partial A \vec{x}}{\partial \vec{x}^{T}} =A, \qquad \frac{\partial\left(\vec{x}^{T} A\right)}{\partial \vec{x}} =A$

线性回归一些具体描述与推导可参考这篇博文-链接

2. 梯度下降

随机初始化 $\theta$ ，设置步长 $\alpha$ ，设置迭代次数 $m$ ，求 $J(\theta)$ 的导数 $\nabla J(\theta)$
$for\quad i =0\quad to \quad m$
$\qquad\theta:=\theta-\alpha \nabla J(\theta)$

2.1 梯度的概念

导数的意义：给定任意一个方向的变化率，是一个标量，反映的是一个函数的变化量。

方向导数：指定方向上的变化率

偏微分：给定自变量的方向，函数沿着 X 轴，沿着 Y 轴的变化趋势，也是一个标量。

梯度：把所有的偏微分当作一个向量来理解。向量的每一个轴是每一个方向上的偏微分。 $\nabla f=\left(\frac{\partial f}{\partial x_{1}} ; \frac{\partial f}{\partial x_{2}} ; \ldots ; \frac{\partial f}{\partial x_{n}}\right)$

梯度有大小和方向。大小：可以反映变化趋势，方向：代表增长的方向。梯度是一个向量，方向为方向导数取得最大值的方向。

例子：
在这里插入图片描述

x , y 代表的是函数的两个自变量, 箭头反映的是这个函数在x，y平面上的一个梯度。
箭头的长度代表这个梯度的大小，梯度的模。反应变化趋势
箭头的方向代表梯度所指的方向。代表增长的方向。

在这里插入图片描述
图中红色部分代表最高点，蓝色部分代表最低点。在最高点求偏导下山，方向不止一个，求得是局部最小值。（若函数是严格的凸函数，可求得全局最小值）。

图中有两个

\theta

值，均要进行更新

根据第1章线性回归梯度更新公式 $\theta_{j}:=\theta_{j}+\alpha \frac{1}{n} \sum_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$ ，引入实际范例中计算。表格数据中有两个特征量 $x_1, x_2$ 和一个输出值 $y$ ，根据假设函数公式，引入特征量 $x_0$ ，其值均为1。则特征数量 $m = 3$ 。表格中有2行数据，则数据量 $n = 2$ 。

引入特征量 $x_0$	房子面积 $x_1$	房子朝向 $x_2$	房子每平米价格 $y$
1	200	1	305
1	120	2	130

$y^{(i)}-h_{\theta}(x^{(i)})=Y-X\Theta =\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(n)}\\ \end{bmatrix} - \begin{pmatrix} x_0^{(1)}&x_1^{(1)}&x_2^{(1)}&\cdots&x_m^{(1)}\\ x_0^{(2)}&x_1^{(2)}&x_2^{(2)}&\cdots&x_m^{(2)}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ x_0^{(n)}&x_1^{(n)}&x_2^{(n)}&\cdots&x_m^{(n)}\\ \end{pmatrix} \cdot \begin{bmatrix} \theta_0\\ \theta_1\\ \vdots\\ \theta_m\\ \end{bmatrix}$

假设函数 $h_{\theta}(x)=\theta_{0} x_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}$ ，随机给定 $\theta_{0}=0.1, \quad\theta_{1}=0.01,\quad \theta_{2}=0.3$ ，则 $h_{\theta}(x)=0.1x_{0}+0.01 x_{1}+0.3 x_{2}$ ，指定学习率 $\alpha=0.01$ ，进行迭代，更新 $\theta$ 。
$\begin{aligned} \theta_0&=0.1+0.01 \times \frac{1}{2}\times[(y^{(1)}-h_{\theta}(x^{(1)}))\cdot x_0^{1}+(y^{(2)}-h_{\theta}(x^{(2)}))\cdot x_0^{2}]\\ &=0.1 +0.01\times \frac{1}{2}\times[(305-(0.1\times1+ 0.01\times200+0.3\times1))\times1+(130-(0.1\times1+ 0.01\times120+0.3\times2))\times1]\\ &= 1.7535 \end{aligned}$

$\begin{aligned} \theta_1&=0.01+0.01 \times \frac{1}{2}\times[(y^{(1)}-h_{\theta}(x^{(1)}))\cdot x_1^{1}+(y^{(2)}-h_{\theta}(x^{(2)}))\cdot x_1^{2}]\\ &=0.01 +0.01\times \frac{1}{2}\times[(305-(0.1\times1+ 0.01\times200+0.3\times1))\times200+(130-(0.1\times1+ 0.01\times120+0.3\times2))\times120]\\ &= 379.47 \end{aligned}$

$\begin{aligned} \theta_2&=0.3+0.01 \times \frac{1}{2}\times[(y^{(1)}-h_{\theta}(x^{(1)}))\cdot x_2^{1}+(y^{(2)}-h_{\theta}(x^{(2)}))\cdot x_2^{2}]\\ &=0.3 +0.01\times \frac{1}{2}\times[(305-(0.1\times1+ 0.01\times200+0.3\times1))\times1+(130-(0.1\times1+ 0.01\times120+0.3\times2))\times2]\\ &= 3.094 \end{aligned}$
更新一次后， $h_{\theta}(x)=1.7535x_{0}+379.47 x_{1}+3.094 x_{2}$ ，再进行第二次更新…… $\theta$ 参数值相差悬殊，因为在数据处理时未进行归一化处理。

2.2 梯度下降法变种

2.2.1 批量梯度下降（Batch Gradient Descent BGD）

前文所描述的均是批量梯度下降, 计算较复杂
$\quad until \quad convergence \{$
$\qquad\quad\theta_{j}:=\theta_{j}+\alpha \frac{1}{n} \sum_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$
$\}$

2.2.2 随机梯度下降（Stochastic Gradient Descent SGD）

随机梯度下降方向不确定，容易发生震荡
$\quad until \quad convergence \{$
$\qquad\quad\theta_{j}:=\theta_{j}+\alpha (y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$
$\}$

2.2.3 小批量梯度下降（Mini-Batch Gradient Descent MBGD）

小批量梯度下降方法更合适数据量大的数据，每次使用batch_size个样本进行更新
$\quad until \quad convergence \{$
$\qquad\quad\theta_{j}:=\theta_{j}+ \frac{\alpha}{batch-num} \sum_{i=1}^{batch-num}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$
$\}$

3. 模型评价

3.1 均方误差（MSE）

$E=\frac{1}{n} \sum_{i=1}^{n}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2}$

$n$ : 样本数

3.2 均方根误差（RMSE）

$E=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y^{(i)}-\hat{y}^{(i)}\right)^{2}}$

3.3 平均绝对误差（MAE）

$E=\frac{1}{n} \sum_{i=1}^{n}\left|y^{(i)}-\hat{y}^{(i)}\right|$

4. 正则化

过拟合 问题是机器学习的关键问题，可以通过 增大数据集 和 减小模型复杂度 来解决。一般而言，数据集是很难增大的，更多是考虑减小模型复杂度，下一课看看如何更好地调节多项式回归模型的复杂度。

图源：马同学机器学习-监督式学习

加罚项的目的，就是为了降低模型复杂度。

参考链接 - 安然烟火 - LinearRegression、岭回归、Lasso回归和ElasticNet回归总结-附python3代码实战及回归检验

岭回归与 Lasso回归的出现是为了解决线性回归出现的 过拟合 以及在通过正规方程方法求解 $θ$ 的过程中出现的 $\left(X^{T} X\right)$ 不可逆 这两类问题的，这两种回归均通过在损失函数中引入 正则化 项来达到目的。

在日常机器学习任务中，如果数据集的特征比样本点还多， $\left(X^{T} X\right)^{-1}$ 的时候会出错。岭回归最先用来处理特征数多于样本数的情况，现在也用于在估计中加入偏差，从而得到更好的估计。这里通过引入 $\lambda$ 限制了所有 $\theta^2$ 之和，通过引入该惩罚项，能够减少不重要的参数，这个技术在统计学上也叫作缩减（shrinkage）。和岭回归类似，另一个缩减 LASSO 也加入了正则项对回归系数做了限定。

为了防止过拟合( $\theta^2$ 过大)，在目标函数 $J(\theta)$ 后添加复杂度惩罚因子，即正则项来防止过拟合。正则项可以使用 L1-norm(Lasso)、L2-norm(Ridge)，或结合L1-norm、L2-norm(Elastic Net)。

简单的理解正则化：

正则化的目的：防止过拟合
正则化的本质：约束（限制）要优化的参数

5. 岭回归

如果样本数据过少导致线性回归拟合较差，则考虑采用 岭回归。如果输入特征的维度很高，而且是稀疏线性关系的话，岭回归就不太合适,考虑使用 Lasso回归。

L2 范数正则化 解决过拟合（Ridge Regression，岭回归）
目标函数： $J(\theta) =\frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda\|\theta\|_{2}^{2}=\frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda\sum_{j=1}^m\theta_j^2 \quad(\lambda>0)$

岭回归求解： $\frac{\partial}{\partial \theta_{j}} J(\theta)=\frac{\partial}{\partial \theta_{j}} \frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\frac{\partial}{\partial \theta_{j}}\lambda\sum_{j=1}^m\theta_j^2=\frac{1}{n} \sum_{i=1}^{n}\left[\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}\right]+2\lambda\theta_j$

迭代公式： $\theta_{j}:=\theta_{j}+\alpha \frac{1}{n} \sum_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}-2\lambda\theta_j$

6. LASSO回归

L1正则化(Lasso回归) 可以使得一些特征的系数变小，甚至还使一些绝对值较小的系数直接变为 0，从而增强模型的泛化能力。对于高的特征数据,尤其是线性关系是稀疏的，就采用 L1正则化(Lasso回归)，或者是要在一堆特征里面找出主要的特征，那么 L1正则化(Lasso回归)更是首选了。

L1范数正则化 解决过拟合（LASSO回归）
目标函数： $J(\theta) =\frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda|\theta|_{1}=\frac{1}{2 n} \sum_{i=1}^{n}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda\sum_{j=1}^m|\theta_j| \quad(\lambda>0)$
LASSO回归求解，将 $J(\theta)$ 前面系数 $\frac{1}{2 n}$ 去掉，对 $\theta$ 无影响。改写为 $J(\theta) =\sum_{i=1}^{n}\left(y^{(i)}-\sum_{j=0}^m\theta_jx_j^{(i)}\right)^{2}+\lambda\sum_{j=0}^m|\theta_j|$

将 $J(\theta)$ 左、右两项拆开分别求导
① 残差部分 $\sum_{i=1}^{n}\left(y^{(i)}-\sum_{j=0}^m\theta_jx_j^{(i)}\right)^{2}$ 求导，为了区分 $j$ 开来，使用 $k$ 对 $\theta_k$ 进行求导区分
$\begin{array}{l} \frac{\partial}{\partial \theta_{k}} \operatorname{RSS}(\theta)=2 \sum_{i=1}^{n}\left(y^{(i)}-\sum_{j=0}^{m} \theta_{j} x_{j}^{(i)}\right)\left(-x_{k}^{(i)}\right) \\ =-2 \sum_{i=1}^{n}\left(x_{k}^{(i)} y^{(i)}-x_{k}^{(i)} \sum_{j=0}^{m} \theta_{j} x_{j}^{(i)}\right) \\ =-2 \sum_{i=1}^{n}\left(x_{k}^{(i)} y^{(i)}-x_{k}^{(i)} \sum_{j=0, j \neq k}^{m} \theta_{j} x_{j}^{(i)}-\theta_{k} x_{k}^{(i)^{2}}\right) \\ =-2 \sum_{i=1}^{n}\left[x_{k}^{(i)}\left(y^{(i)}-\sum_{j=0, j \neq k}^{m} \theta_{j} x_{j}^{(i)}\right)\right]+2 \theta_{k} \sum_{i=1}^{n} x_{k}^{(i)^{2}} \end{array}$

令 $p_{k}=\sum_{i=1}^{n}\left[x_{k}^{(i)}\left(y^{(i)}-\sum_{j=0, j \neq k}^{m} \theta_{j} x_{j}^{(i)}\right)\right]$ ， $z_{k}=\sum_{i=1}^{n} x_{k}^{(i)^{2}}$
则 $\frac{\partial}{\partial \theta_{k}} RSS(\theta)=-2 p_{k}+2 \theta_{k} z_{k}$
② 对正则项 $\lambda\sum_{j=0}^m|\theta_j|$ 求偏导， $|\theta_j|$ 分大于0，小于0，等于0讨论，且在等于0处不可导。
$\frac{\partial}{\partial \theta_{k}} R(\theta)=\left\{\begin{array}{ll}-\lambda & \theta_{k}<0 \\ {[-\lambda, \lambda]} & \theta_{k}=0 \\ \lambda & \theta_{k}>0\end{array}\right.$

③ 对整体求偏导
$\frac{\partial}{\partial \theta_{k}} J(\theta)=-2 p_{k}+2 \theta_{k} z_{k}+\left\{\begin{array}{ll} -\lambda & \theta_{k}<0 \\ {[-\lambda, \lambda]} & \theta_{k}=0 \\ \lambda & \theta_{k}>0 \end{array}=\left\{\begin{array}{ll} -2 p_{k}+2 \theta_{k} z_{k}-\lambda & \theta_{k}<0 \\ {\left[-2 p_{k}-\lambda,-2 p_{k}+\lambda\right]} & \theta_{k}=0 \\ -2 p_{k}+2 \theta_{k} z_{k}+\lambda & \theta_{k}>0 \end{array}\right.\right.$

令 $\frac{\partial}{\partial \theta_{k}} J(\theta)=0$ 得
$\theta_{k}=\left\{\begin{array}{ll} \left(p_{k}+\lambda / 2\right) / z_{k} & p_{k}<-\lambda / 2 \\ 0 & -\lambda / 2 \leq p_{k} \leq \lambda / 2 \\ \left(p_{k}-\lambda / 2\right) / z_{k} & p_{k}>\lambda / 2 \end{array}\right.</font>$

最终迭代公式：令 $p_{k}=\sum_{i=1}^{n}\left[x_{k}^{(i)}\left(y^{(i)}-\sum_{j=0, j \neq k}^{m} \theta_{j} x_{j}^{(i)}\right)\right]$ ， $z_{k}=\sum_{i=1}^{n} x_{k}^{(i)^{2}}$
$\theta_{k}=\left\{\begin{array}{ll} \left(p_{k}+\lambda / 2\right) / z_{k} & p_{k}<-\lambda / 2 \\ 0 & -\lambda / 2 \leq p_{k} \leq \lambda / 2 \\ \left(p_{k}-\lambda / 2\right) / z_{k} & p_{k}>\lambda / 2 \end{array}\right.$

带入2.1章节例子进行梯度更新：

引入特征量 $x_0$	房子面积 $x_1$	房子朝向 $x_2$	房子每平米价格 $y$
1	200	1	305
1	120	2	130
$p_0$ 、 $z_0$	$p_1$ 、 $z_1$	$p_2$ 、 $z_2$

对应每一项都有相应 $p_k$ 和 $z_k$ ， $k = 1, 2, 3$ 。
分别求 $p_1$ 和 $z_1$ 举例，此时 $k = 1, n = 2, m = 3 （ 3 个值）$ 。（ $i$ 分别等于1,2；内嵌 $j$ 分别等于0,2）
$p_{1}=\sum_{i=1}^{n}\left[x_{1}^{(i)}\left(y^{(i)}-\sum_{j=0, j \neq 1}^{m} \theta_{j} x_{j}^{(i)}\right)\right]=[200\times(305-(\theta_0\cdot x_0^{(1)}+\theta_2\cdot x_2^{(1)})+120\times(130-(\theta_0\cdot x_0^{(2)}+\theta_2\cdot x_2^{(2)}))]$

$z_{1}=\sum_{i=1}^{n} x_{1}^{(i)^{2}}={x_1^{(1)}}^2+{x_1^{(2)}}^2=200^2+120^2$

$\theta_{1}=\left\{\begin{array}{ll} \left(p_{1}+\lambda / 2\right) / z_{1} & p_{1}<-\lambda / 2 \\ 0 & -\lambda / 2 \leq p_{1} \leq \lambda / 2 \\ \left(p_{1}-\lambda / 2\right) / z_{1} & p_{1}>\lambda / 2 \end{array}\right.$