机器学习的数学——回归篇

秃头鸭鸭鸭

已于 2023-03-29 19:41:50 修改

阅读量142

点赞数

分类专栏：机器学习的数学文章标签：机器学习回归人工智能

于 2023-03-02 14:25:28 首次发布

本文链接：https://blog.csdn.net/a3216828/article/details/129253261

版权

机器学习的数学专栏收录该内容

6 篇文章 0 订阅

订阅专栏

多项式回归

如何表示误差？

最小二乘法——以一元一次函数为例

$f_\theta(x)=\theta_0+\theta_1x$
假设有 $n$ 个训练数据，那么它们的误差之和可以用这样的表达式表示。这个表达式成为目标函数， $E(\theta)$ 的 $E$ 是误差的英语单词Error的首字母。
$E(\theta) = \frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-f_{\theta}(x^{(i)}))^2$

说明:
① $x^{(i)}$ 和 $y^{(i)}$ 指第 $i$ 个训练数据；
② 对每个训练数据的误差取平方之和，全部相加，然后乘以 $\frac{1}{2}$ 。这么做是为了找到使 $E(\theta)$ 的值最小的 $\theta$ 。这样的问题称为最优化问题；
③ 使用平方而不使用绝对值，乘以 $\frac{1}{2}$ 而不乘以其他常数的原因是便于后续的微分。

如何使误差最小？

最速下降法——以一元一次函数为例

对于存在最小值的函数 $g (x)$ ，如果一边修改 $x$ 的值，一边计算 $g (x)$ 并与之前的值相比较，这样的做法太麻烦。
因此，我们可以让 $g (x)$ 的值不断变小，直到不变。为了使 $g (x)$ 的值变小，我们需要将 $x$ 向与此时的导数符号相反的方向移动某个值，从而实现参数 $x$ 的自动更新。
那么，应该移动多少呢？
$x:=x-\eta\frac{d}{dx}g(x)$
从上式我们不难得出应当移动 $\eta\frac{d}{dx}g(x)$ ， $\frac{d}{dx}g(x)$ 表示此时的导数值（即微分）， $\eta$ 则表示学习率（正的常数）。根据学习率的大小，到达最小值的更新次数也会发生变化。换种说法就是收敛速度会不同。有时候甚至会出现完全无法收敛，一直发散的情况。
因此，当 $\eta$ 过大，移动量变大，那么在参数的更新过程中可能会在两个值之间反复横跳，甚至远离最小值的情况，这就是发散状态；当 $\eta$ 过小，移动量也变小，更新次数就会增加，但是值确实是会朝着收敛的方向去的。

$E(\theta) = \frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-f_{\theta}(x^{(i)}))^2$
我们回到误差的表达式，将其作为目标函数，采取最速下降法求最小值。但是该函数是拥有 $\theta_0$ 和 $\theta_1$ 的双变量函数，因此我们采用偏微分。
$\begin{align*} &\theta_0:=\theta_0-\eta\frac{\partial E}{\partial \theta_0}\\ &\theta_1:=\theta_1-\eta\frac{\partial E}{\partial \theta_1} \end{align*}$
$\frac{\partial E}{\partial \theta_0}$ 计算过程如下：（复合函数的微分）
$u=E(v)\\ v=f_{\theta}(x)$
$\frac{\partial E}{\partial\theta_0}=\frac{\partial u}{\partial\theta_0}=\frac{\partial u}{\partial v}·\frac{\partial v}{\partial\theta_0}$
$\begin{align*} &\frac{\partial u}{\partial v}=\frac{\partial}{\partial v}(\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-v)^2)\\ &\phantom{AB}=\frac{1}{2}\sum_{i=1}^{n}\frac{\partial}{\partial v}(y^{(i)}-v)^2\\ &\phantom{AB}=\frac{1}{2}\sum_{i=1}^{n}(2v-2y^{(i)})\\ &\phantom{AB}=\sum_{i=1}^{n}(v-y^{(i)}) \end{align*}$
$\begin{align*} &\frac{\partial v}{\partial \theta_0}=\frac{\partial}{\partial \theta_0}(\theta_0+\theta_1x)\\ &\phantom{AB:}=1 \end{align*}$
$\begin{align*} &\frac{\partial E}{\partial\theta_0}=\frac{\partial u}{\partial\theta_0}=\frac{\partial u}{\partial v}·\frac{\partial v}{\partial\theta_0}\\ &\phantom{AB:}=\sum_{i=1}^{n}(v-y^{(i)})·1\\ &\phantom{AB:}=\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)}) \end{align*}$
综上所述 $\theta_0:=\theta_0-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)})$
同理可得 $\theta_1:=\theta_1-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)})x^{(i)}$
只需要根据这个表达式来更新 $\theta_0$ 和 $\theta_1$ 就能找到正确的一次函数 $f_\theta$ (x)。

最速下降法——以多元一次函数为例（多重回归）

$f_{\bm{\theta}}(\bm{x})=\bm{\theta}^T\bm{x}$
$\theta=\begin{bmatrix} \begin{matrix} \theta_0\\ \theta_1\\ \theta_2\\ \vdots \\ \theta_n\\ \end{matrix} \end{bmatrix} \space\space x=\begin{bmatrix} \begin{matrix} x_0\\ x_1\\ x_2\\ \vdots \\ x_n\\ \end{matrix} \end{bmatrix} \space\space(x_0=1)$
由最速下降法同理可得：
$\theta_j:=\theta_j-\eta\sum_{i=1}^n(f_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}$
像这样包含了多个变量的回归称为多重回归

随机梯度下降法——以多元一次函数为例（多重回归）

所谓的最速下降法就是对所有训练数据都重复进行计算，但是训练数据越多，循环次数也就越多，因此计算量大、计算时间长是最速下降法的一个缺点。同时，最速下降法容易陷入局部最优解，从不同的点开始找最小值，会得到不同的“最小值”。
在这里插入图片描述

最速下降法使用了所有训练数据的误差，而随机梯度下降法中会随机选择一个训练数据，并使用它来更新参数。这个表达式中的 $k$ 就是被随机选择的数据索引。
$\theta_j:=\theta_j-(f_{\theta}(x^{(k)})-y^{(k)})x_j^{(k)}$
相比之下，最速下降法更新1次参数的时间，随机梯度下降法可以更新 $n$ 次，此外，随机梯度下降法由于训练数据是随机选择的，更新参数时使用的又是选择数据时的梯度，所以不容易陷入目标函数的局部最优解。

小批量梯度下降法——以多元一次函数为例（多重回归）

上述方法为随机选择1个训练数据的做法，此外还有随机选择 $m$ 个训练数据来更新参数的做法，这种做法被称为小批量梯度下降法。
设随机选择 $m$ 个训练数据的索引的集合为 $K$ ：
$\theta_j:=\theta_j-\eta\sum_{(k\in K)}(f_{\theta}(x^{(k)})-y^{(k)})x_j^{(k)}$