【白话机器学习的数学】读书笔记(2)学习回归

最新推荐文章于 2024-06-27 14:02:13 发布

JunLal

最新推荐文章于 2024-06-27 14:02:13 发布

阅读量988

点赞数 18

分类专栏：白话机器学习的数学读书笔记文章标签：机器学习学习回归

本文链接：https://blog.csdn.net/NewbieJ_/article/details/135627460

版权

白话机器学习的数学读书笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

二、学习回归

1. $y$ 与 $f_\theta(x)$

$y$ 是实际数据x对应的值

$f_\theta(x)$ 是我们构造出来的函数，例如 $f_\theta(x) = \theta_0 + \theta_1 x$

所以我们希望这两个越接近，同时我们把 $f_\theta(x)$ 称为误差

2.目标函数

假设有 n 个训练数据，那么它们的误差之和可以用这样的表达式表示。这个表达式称为

目标函数，E(θ)的E是误差的英语单词 Error 的首字母
$E(\theta) = \frac{1}{2}\sum_{i=1}^n[y^{(i)}-f_\theta(x^{(i)})]^2$
找到使 E(θ) 的值最小的 θ。这样的问题称为最优化问题。

3.最小二乘法

修改 $\theta$ 使得 $E(\theta)$ 越来越小，这种做法成为最小二乘法。

4.最速下降法

要让 E(θ) 越来越小，一边随意修改 θ 的值，一边计算 E(θ) 并与之前的值相比较的做法实在是太麻烦了。

微分是计算变化的快慢程度时使用的方法。

书中举了一个例子：
$x^2 - 2x + 1 \\ \frac{dg(x)}{dx} = 2x-2$

增减表

请添加图片描述

图像

比如在 x = 3 这一点，为了使 g(x)的值变小，我们需要向左移动x，也就是必须减小 x。

只要向与导数的符号相反的方向移动 x，g(x) 就会自然而然地沿着最小值的方向前进了。

最速下降法或梯度下降法
$\eta \frac{dg(x)}{dx}$

$\eta$ 称为学习率的常数
A:=B，就是用B来定义A

这个同样适用于目标函数（目标函数也是个开口向上的）
$\theta_0 := \theta_0 - \eta \frac{\partial E}{\partial \theta_0} \\ \theta_1 := \theta_1 - \eta \frac{\partial E}{\partial \theta_1}$

复合函数的微分
$E(\theta)\\ v=f_\theta(x)\\ \frac{\partial u}{\partial \theta_0} = \frac{\partial u}{\partial v} ·\frac{\partial v}{\partial \theta_0}$
其中
在这里插入图片描述

在这里插入图片描述

所以有

在这里插入图片描述

同理可以得到 $\frac{\partial u}{\partial \theta_1}$

所以最终可以得到
$\theta_0 := \theta_0 - \eta \frac{\partial E}{\partial \theta_0} = \theta_0 - \eta\sum_{i=1}^n[f_\theta(x^{(i)} - y^{(i)})] \\ \theta_1 := \theta_1 - \eta \frac{\partial E}{\partial \theta_1} = \theta_0 - \eta\sum_{i=1}^n[f_\theta(x^{(i)} - y^{(i)})]x^{(i)}$
根据这个表达式来更新 $\theta_0$ 和 $\theta_1$ ，就可以找到好的一次函数 $f_\theta(x)$

缺点：

计算量大
计算时间长
容易陷入局部最优解

5.多项式回归

将一次函数拓展为多次函数，即
$f_\theta(x) = \theta_0 + \theta_1 x \to f_\theta(x) = \theta_0 + \theta_1 x +\theta_2x^2+...+\theta_nx^n$
同理，对于 $\theta_n$ 的更新规则也和最速下降法中一样

在这里插入图片描述

6.多重回归

将一次函数中的x变为多个x，即
$f_\theta(x) = \theta_0 + \theta_1 x \to f_\theta(x_1,x_2,...,x_n) = \theta_0 + \theta_1 x_1 + ...+ \theta_n x_n$
然后为了方便，我们可以用向量来表示
$\theta = \begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{bmatrix} \tag{2} , x = \begin{bmatrix} 1\\ x_1\\ ...\\ x_n \end{bmatrix}$
对应的
$f_\theta(x) = \theta^Tx = \theta_0 + \theta_1 x +\theta_2x^2+...+\theta_nx^n$
要求出合适的更新规则，其实也和前面的做法一样，复合函数求微分
$E(\theta)\\ v=f_\theta(x)\\ \frac{\partial u}{\partial \theta_j} = \frac{\partial u}{\partial v} ·\frac{\partial v}{\partial \theta_j}$
所以

在这里插入图片描述

对应的第j个参数的更新表达式为
$\theta_j := \theta_j - \eta\sum_{i=1}^n[f_\theta(x^{(i)} - y^{(i)})]x_j^{(i)}$

7.随机梯度下降法

最速下降法的参数更新表达式
$\theta_j := \theta_j - \eta\sum_{i=1}^n[f_\theta(x^{(i)} - y^{(i)})]x_j^{(i)}$
这个表达式使用了所有训练数据的误差，而在随机梯度下降法中会随机选择一个训练数据，并使用它来更新参数。这个表达式中的 k 就是被随机选中的数据索引。
$\theta_j := \theta_j - \eta[f_\theta(x^{(k)} - y^{(k)})]x_j^{(k)}$
因此，最速下降法更新 1 次参数的时间，随机梯度下降法可以更新 n 次。

此外，随机梯度下降法由于训练数据是随机选择的，更新参数时使用的又是选择数据时的梯度，所以不容易陷入目标函数的局部最优解。

8.小批量梯度下降法

这个方法介于最速下降法和随机梯度下降法之间的方法。

最速下降法是用了全部的训练数据
随机梯度下降法是只用了一个数据。
小批量梯度下降法就是选择部分的数据。

假设训练数据有 100 个，那么在 m = 10 时，创建一个有 10 个随机数的索引的集合，例如 K = {61, 53, 59, 16, 30, 21, 85, 31, 51, 10}、

对应的更新规则为
$\theta_j := \theta_j - \eta\sum_{k\in K}[f_\theta(x^{(k)} - y^{(k)})]x_j^{(k)}$

JunLal

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
【白话机器学习的数学】读书笔记(2)学习回归

假设训练数据有 100 个，那么在 m = 10 时，创建一个有 10 个随机数的索引的集合，例如 K = {61, 53, 59, 16, 30, 21, 85, 31, 51, 10}、比如在 x = 3 这一点，为了使 g(x)的值变小，我们需要向左移动x，也就是必须减小 x。个训练数据，那么它们的误差之和可以用这样的表达式表示。目标函数，E(θ)的E是误差的英语单词 Error 的首字母。要求出合适的更新规则，其实也和前面的做法一样，复合函数求微分。的，更新参数时使用的又是选择数据时的梯度，所以。
复制链接

扫一扫