线性回归（理论部分）

最新推荐文章于 2022-09-14 17:06:55 发布

JK Chen

最新推荐文章于 2022-09-14 17:06:55 发布

阅读量317

点赞数 1

分类专栏：机器学习 All

本文链接：https://blog.csdn.net/jk_chen_acmer/article/details/102973678

版权

All 同时被 2 个专栏收录

629 篇文章 5 订阅

订阅专栏

机器学习

25 篇文章 2 订阅

订阅专栏

python代码实现：https://blog.csdn.net/jk_chen_acmer/article/details/102990950

线性回归

预测的答案值可以用各个特征值的线性表达式表示。

假设单个变量 $x$ ，实际答案为 $y$ ，线性预测值为 $h_\theta(x)$ ， $h_\theta(x)=\theta_0+\theta_1x$ 。
数据集的数据个数为 $m$ ，称 $x^{(i)}$ 为第 $i$ 个数据的 $x$ 值， $y^{(i)}$ 同理。

对于一组 $\theta_0,\theta_1$ ，我们可以得到其代价函数为 $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ ，也就是类似方差的东西，反应了预测值与实际答案的差距。

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(\theta_0+\theta_1x^{(i)}-y^{(i)})^2$ ，显然当 $\theta_0$ 固定时， $\theta_1$ 与 $J(\theta_0,\theta_1)$ 的关系如图：
在这里插入图片描述
当 $\theta_0$ 不固定时， $\theta_0,\theta_1$ 与 $J(\theta_0,\theta_1)$ 的关系如图（碗装图）：

误差当然是越小越好，所以我们就是想办法在上述图像中找到一个最低点。

一般采用梯度下降法来得到最低点。

梯度下降算法

在这里插入图片描述
$\alpha$ 表示学习速率
$\dfrac{\vartheta}{\vartheta\theta_j}J(\theta_0,\theta_1)$ 表示当前点的导数，也就是与图像相切的线的斜率。

对于一个n个特征值的问题，我们的代价函数和导数为：

$J(\theta_0,\theta_1...\theta_n)=\frac{1}{2m}\sum_{i=1}^m(\theta_0+\theta_1x_1^{(i)}+...+\theta_nx_n^{(i)}-y^{(i)})^2 \\ \dfrac{\vartheta}{\vartheta\theta_j}J(\theta_0,\theta_1...\theta_n)=\frac{1}{m}\sum_{i=1}^m(\theta_0+\theta_1x_1^{(i)}+...+\theta_nx_n^{(i)}-y^{(i)})*x_j^{(i)}$

梯度下降算法……α

每次另 $\theta_j=\theta_j-\alpha\dfrac{\vartheta}{\vartheta\theta_j}J(\theta_0,\theta_1)$ ，相当于往最低点走一步，这一步的长度与 $\alpha$ 直接相关。
在这里插入图片描述

梯度下降算法……特征缩放

当多个特征值的范围差异较大时，例如 $x_1\in[0,1],x_2\in[0,1000]$ （在3D图像中的表现为扁平图像），每一步的斜率可能非常小，却又离最低点很远，需要非常大的迭代次数。这个时候我们可以对特征值进行缩放。

一般另 $x=\dfrac{x-average}{range}$
例如 $x\in[0,1000]$ ，那么 $600 : = (600 - 500) / 1000 = 0.1$ ，显然最后的范围为 $[- 0.5, 0.5]$

梯度下降算法……构造新的特征

我们可以用已有的特征值通过方程式，构造出新的式子。例如我现在有 $x_1,x_2$ ，可能最优预测函数 $h_\theta(\theta_0,\theta_1)=\theta_0+\theta_1x_1x_2$ ，此时我们原来按照 $\theta_0+\theta_1x_1+\theta_2x_2$ 构造就不太行了，但是如果我们令 $x'=x_1x_2$ ， $h_\theta(\theta_0,\theta_1)=\theta_0+\theta_1x'$ ，就解决问题了。

以此方法，我们可以用线性回归处理非线性问题。

例如，最优预测函数为 $h_\theta(\theta_0,\theta_1,\theta_2,\theta_3)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$ ，我们另 $x_1=x,x_2=x^2,x_3=x^3$ ，则可以将预测函数写成 $h_\theta(\theta_0,\theta_1,\theta_2,\theta_3)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3$ 。

注意，此时的 $x_i$ 的范围显然差距很大，那么特征缩放就更加重要了。

梯度下降算法……向量化计算

一般的编程语言带有或易获取线性代数库，实现速度快，所以一些计算我们可以使用矩阵运算来代替。

$h_\theta(\theta_0,\theta_1,\theta_2,\theta_3)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3 \\ \Rightarrow[\theta_0,\theta_1,\theta_2,\theta_3]*[1,x_1,x_2,x_3]^T$

$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(\theta_0+\theta_1x_1^{(i)}+...+\theta_nx_n^{(i)}-y^{(i)})*x_0^{(i)}\\ \theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(\theta_0+\theta_1x_1^{(i)}+...+\theta_nx_n^{(i)}-y^{(i)})*x_1^{(i)}\\ \theta_n:=\theta_n-\alpha\frac{1}{m}\sum_{i=1}^m(\theta_0+\theta_1x_1^{(i)}+...+\theta_nx_n^{(i)}-y^{(i)})*x_n^{(i)}\\ \\ \Rightarrow \begin{bmatrix}\theta_0\\\theta_1\\...\\\theta_n\end{bmatrix}-\alpha\frac{1}{m}(\theta_0+\theta_1x_1^{(1)}+...+\theta_nx_n^{(1)}-y^{(1)})\begin{bmatrix}x^{(1)}_0\\x^{(1)}_1\\...\\x^{(1)}_n\end{bmatrix}...-\alpha\frac{1}{m}(\theta_0+\theta_1x_1^{(m)}+...+\theta_nx_n^{(m)}-y^{(m)})\begin{bmatrix}x^{(m)}_0\\x^{(m)}_1\\...\\x^{(m)}_n\end{bmatrix}$

正规方程

将第 $i$ 个数据的特征值写成行向量的形式（额外加上一个 $x_0$ ）： $x^{(i)}=(x_0=1,x_1...x_n)$
令矩阵 $X$ 的第 $i$ 行为第 $i$ 组数据的行向量： $\begin{bmatrix}x^{(1)}_0 ,x^{(1)}_1...x^{(1)}_n\\x^{(2)}_0 ,x^{(2)}_1...x^{(2)}_n\\..\\x^{(m)}_0 ,x^{(m)}_1...x^{(m)}_n\end{bmatrix}$
令 $m * 1$ 的矩阵 $Y$ 的第 $i$ 行第一个元素为第 $i$ 组数据的答案： $\begin{bmatrix}y^{(1)}\\y^{(1)}\\...\\y^{(m)}\end{bmatrix}$