机器学习之梯度下降算法

最新推荐文章于 2022-10-17 20:08:51 发布

谦小白

最新推荐文章于 2022-10-17 20:08:51 发布

阅读量207

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_38279101/article/details/103776935

版权

机器学习专栏收录该内容

11 篇文章 8 订阅

订阅专栏

文章目录

（一）梯度下降(Gradient Descent)

（一）梯度下降(Gradient Descent)

   梯度下降是一个用来求函数最小值的算法。我们将使用梯度下降算法来求出代价函数 $J(\theta_{0}, \theta_{1})$ 的最小值
   即你有一个代价函数集，你要寻找最合适的参数使得这个代价函数最小！
   梯度下降算法，可以用来最小化任何代价函数。

具体步骤：

随机选择一个参数组合 $\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}}\right)$ ，这里是随机选择 $\left( {\theta_{0}},{\theta_{1}} \right)$
计算代价函数
通过不断改变 $\left({\theta_{0}},{\theta_{1}} \right)$ 的值，来使代价函数 $J(\theta_{0}, \theta_{1})$ 不断减小，直到找到最小值(最优解)，一般只能找到局部最小值（local minimum)，因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum)。选择不同的初始参数组合，可能会找到不同的局部最小值。

重复这个步骤，直到收敛(repeat until convergence) {

${\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)$ （这就是梯度下降法的更新规则，即不断更新参数的值）
$\alpha$ 被称为学习率，用来控制梯度下降时，我们迈出多大的步子, $\alpha$ 始终大于0
}
注意： ${\theta_{j}}$ 代表的是第 $j$ 个参数

正确更新步骤应该同时更新参数：
${temp0}:={\theta_{0}}-\alpha \frac{\partial }{\partial {\theta_{0}}}J(\theta_{0}, \theta_{1})$
${temp1}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J(\theta_{0}, \theta_{1})$
${\theta_{0}}:={temp0}$
${\theta_{1}}:={temp1}$
注意：temp0和temp1的计算要在下面两个赋值操作之前，不然就会造成参数更新不同步的错误。

（1）梯度下降参数的更新过程

在这里插入图片描述
以更新 ${\theta_{1}}$ 为例：
      ${\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ ，其中 $\alpha$ 始终是大于0的。
     在上图中，右边的点 $(\theta_{1},J(\theta_{1}))$ 的切线斜率为 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ ,即对代价函数 $J(\theta_{0},\theta_{1})$ 求 $\theta_{1}$ 的偏导。因为切线斜率大于0，即 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ >0,所以 $\alpha \frac{\partial }{\partial{\theta_{1}}}J\left(\theta_{1} \right)$ >0，所以 ${\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 会减小，即 $\theta_{1}$ 往左边方向移动，而这个点 $(\theta_{1},J(\theta_{1}))$ 也会如上图蓝色箭头所示那样往函数的最小值地方靠近，一直到紫色箭头所指的地方停止。因为紫色箭头所指这里的切线斜率为0，即导数为0，即 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 为0，所以 ${\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 最终变为 ${\theta_{1}}:={\theta_{1}}-0$ ，此时 $\theta_{1}$ 不会再发生变化。
     在上图中，左边的点 $(\theta_{1},J(\theta_{1}))$ 的切线斜率为 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ ,即对代价函数 $J(\theta_{0},\theta_{1})$ 求 $\theta_{1}$ 的偏导。因为切线斜率小于0，即 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ <0,所以 $\alpha \frac{\partial }{\partial{\theta_{1}}}J\left(\theta_{1} \right)$ <0，所以 ${\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 会变大，即 $\theta_{1}$ 往右边方向移动，而这个点 $(\theta_{1},J(\theta_{1}))$ 也会如上图蓝色箭头所示那样往函数的最小值地方靠近，一直到紫色箭头所指的地方停止。因为紫色箭头所指这里的切线斜率为0，即导数为0，即 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 为0，所以 ${\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 最终变为 ${\theta_{1}}:={\theta_{1}}-0$ ，此时 $\theta_{1}$ 不会再发生变化。

（2）关于学习率的那点事

$\alpha$ 被称为学习率，用来控制梯度下降时，我们迈出多大的步子，

2.1学习率大小的问题

如图所示
在这里插入图片描述

如果 $\alpha$ 太小了，即学习速率太小，可能会很慢，因为它会一点点挪动，它会需要很多步才能到达全局最低点。通俗地讲，如果 $\alpha$ 太小你的程序需要运行很久!
如果 $\alpha$ 太大，那么梯度下降法可能会越过最低点，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点，直到你发现实际上离最低点越来越远，导致无法收敛，甚至发散，如右图所示。

2.2在梯度下降算法中的学习率 $\alpha$ 需不需要改变？

在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接近局部最低时，导数值会自动变得越来越小(因为越靠近局部最低点时，切线斜率就越小，即 $\frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 会越来越小，所以 $\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta_{1} \right)$ 会越来越小)，所以梯度下降将自动采取较小的幅度，这就是梯度下降的做法。所以实际上没有必要再另外减小 $\alpha$