【吴恩达机器学习笔记】第一章单变量线性回归

最新推荐文章于 2022-10-08 10:17:38 发布

毕君郁

最新推荐文章于 2022-10-08 10:17:38 发布

阅读量288

点赞数

文章标签：机器学习吴恩达 AI 线性回归梯度下降

本文链接：https://blog.csdn.net/weixin_42104137/article/details/86376766

版权

【吴恩达机器学习笔记】第一章单变量线性回归

1、代价函数

假设 ${h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x$ 其中： $\theta_0$ 、 $\theta_1$ 为参数
怎样设置参数？选择 $\theta_0$ 、 $\theta_1$ 使得： $\min \frac{1}{{2m}}{\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{(i)}}} \right) - {y^{(i)}}} \right)} ^2}$ 其中：m为训练集的样本容量
以上为我们线性回归的整体目标函数，为了使它更明确一点，我们要定义一个代价函数： $J\left( {{\theta _0},{\theta _1}} \right) = \frac{1}{{2m}}{\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{(i)}}} \right) - {y^{(i)}}} \right)} ^2}$ $\min J\left( {{\theta _0},{\theta _1}} \right)$ 这就是我们的代价函数
代价函数也被称为平方误差函数，有时也被称为平方误差代价函数，此函数对于大多数线性回归问题是非常合理的。
代价函数的三维图像如下所示：
在这里插入图片描述
假设函数与代价函数的等高线图如下所示：

其中每个椭圆形显示了一系列 $J\left( {{\theta _0},{\theta _1}} \right)$ 值相同的点。

2、梯度下降算法

梯度下降(gradient descent)是很常用的算法。它不仅被用在线性回归上，也被应用在机器学习的多种领域。

算法步骤：
1、给定 $\theta_0$ 、 $\theta_1$ 初始值（通常是将它们都初始化为0）
2、不断改变 $\theta_0$ 、 $\theta_1$ 的值，直到找到 $J\left( {{\theta _0},{\theta _1}} \right)$ 的最小值或局部最小值
在这里插入图片描述
为了方便理解我引用吴老师的原话：

现在我希望大家把这个图像想作一座山，想象这是个长满青草的公园，其中有两座这个样的山，想象一下，你正站在这一点上，站在公园这座红色的山上。在梯度下降算法中，我们要做的就是，旋转360度，看看你的周围，并问自己，如果我要在某个方向上走一小步，我想尽快走下山，我应该朝什么方向迈步？

数学思想：
重复直到找到局部最优解{

$\quad \quad\quad\quad{\theta _j}: = {\theta _j} - \alpha \frac{\partial }{{\partial {\theta _j}}}J\left( {{\theta _0},{\theta _1}} \right)\quad \quad for(j=0\quad and\quad j=1)$
}
其中：:=表示赋值
$\quad\quad\alpha$ 为学习率，用来决定梯度下降时，我们迈多大的步子。如何设置 $\alpha$ 后面会详细介绍。

在梯度下降中，有一个特点：是必须同时更新 $\theta_0$ 、 $\theta_1$ 。所以有更加详细的步骤如下所示： ${\theta _0} - \alpha \frac{\partial }{{\partial {\theta _0}}}J\left( {{\theta _0},{\theta _1}} \right)$ ${\theta _1} - \alpha \frac{\partial }{{\partial {\theta _0}}}J\left( {{\theta _0},{\theta _1}} \right)$ ${\theta _0}: = temp0$ ${\theta _1}: = temp1$ 用上述方法就可以正确的实现梯度下降了。如果将步骤2和3交换，则没有达到同步更新，就是错误的。

解释导数项的意义：
在这里插入图片描述
解释学习速率 $\alpha$ 的意义：

当 $\alpha$ 过小时，会导致每一步更新过于小，使速率过于缓慢，需要迭代很多次才能达到局部最优点。如下图所示：
在这里插入图片描述
而 $\alpha$ 过大时，梯度下降可能会越过最低点，可能导致无法收敛甚至发散，如下图所示：

3、线性回归的梯度下降

将前文的代价函数和梯度下降结合后，得到： $\frac{\partial }{{\partial {\theta _j}}}J\left( {{\theta _0},{\theta _1}} \right) = \frac{\partial }{{\partial {\theta _j}}}\frac{1}{{2m}}{\sum\limits_{i = 1}^m {\left( {{\theta _0} + {\theta _1}{x^{(i)}} - {y^{(i)}}} \right)} ^2}$
则可以分别求出 $t e m p 0$ ， $t e m p 1$ 为： $\frac{\partial }{{\partial {\theta _0}}}J\left( {{\theta _0},{\theta _1}} \right) = \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{\theta _0} + {\theta _1}{x^{(i)}} - {y^{(i)}}} \right)}$ $\frac{\partial }{{\partial {\theta _1}}}J\left( {{\theta _0},{\theta _1}} \right) = \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{\theta _0} + {\theta _1}{x^{(i)}} - {y^{(i)}}} \right)} \cdot {x^{(i)}}$
综上所述，可得回归的梯度下降算法如下所示：

重复直到找到局部最优解{ ${\theta _0}: = {\theta _0} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{\theta _0} + {\theta _1}{x^{(i)}} - {y^{(i)}}} \right)}$ ${\theta _1}: = {\theta _1} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{\theta _0} + {\theta _1}{x^{(i)}} - {y^{(i)}}} \right)} \cdot {x^{(i)}}$ }