机器学习笔记04-梯度下降算法中的学习率（步长）

最新推荐文章于 2024-04-27 12:12:51 发布

dyclg

最新推荐文章于 2024-04-27 12:12:51 发布

阅读量1w

点赞数 7

分类专栏：线性回归学习率文章标签：机器学习

本文链接：https://blog.csdn.net/dycljj/article/details/110743561

版权

线性回归同时被 2 个专栏收录

4 篇文章 2 订阅

订阅专栏

学习率

1 篇文章 0 订阅

订阅专栏

1、回顾

之前所说的梯度下降算法中有几个细节，求导部分已经在上一节进行说明，接下来主要对公式当中的 $\alpha$ ，即就是学习率（步长）进行说明。
$\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)},for(j=1 and j=0)$ 其中 $\frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)}$ 其实就是计算的梯度， $: =$ 表示赋值， $\alpha$ 表示学习率（步长）。

梯度下降算法的主要目的是为了求解最优的参数，也就是使得代价函数值最小。假设代价函数为：
$J_{\left(\theta_{0}, \theta_{1}\right)}=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right)^{2}$

梯度下降算法就是通过不断更新 $\theta_{0}和\theta_{1}$ 的值来达到求取最优的模型，模型表示为：

$h_{\theta(x)}=\theta_{0}+\theta_{1} x$

2、说明

$\alpha$ 其实就是就是一个实数，在数学中很好理解。为什么称它为学习率或者步长呢？举个简单的例子：
（1）三个人分别为小孩、青少年和中年，同时要走100m，假设小孩一步走0.5m，青少年一步走1m，中年一步走1.5m（每步都一样），那么谁先到达终点呢？答案肯定是中年，很简单，因为中年一步走的多，所有能更快到达终点，青少年次之，最慢的为小孩。

这就和公式中的 $\alpha$ 是一样滴，它也是这个用途，用来控制算法每次移动的距离。正常来说， $\alpha$ 越大，算法每次移动的就越大，越小，每次移动的也就越小。

（2）在之前的例子上再加一条规定，就是必须刚好走100m。计算一下发现，小孩在200步后会恰好走到终点，青少年会在100步后恰好走到终点，而中年会在第67步后走过终点（100.5m），他永远不可能恰好走到100m处。

这也印证了 $\alpha$ 选值的重要性，理论来说，当 $\alpha$ 足够小时，总是能得到最优解，但是需要迭代很多次（对应小孩），当 $\alpha$ 太大时，很容易直接跳过最优值，导致无法收敛（对应中年），只有当选择合适的 $\alpha$ 时，才能更好更快的收敛（对应青少年）。

总结：当 $\alpha$ 太小时，可能会需要多次迭代才能收敛，当 $\alpha$ 太大时，可能导致无法收敛或者会发散，只有选择合适的 $\alpha$ 时，才能更好的收敛。
在这里插入图片描述

3、为什么 $\alpha$ 太大时会导致无法收敛？

可以自己举个例子带入计算一下，其实就能得到结果。为了方便计算，我以第二节中讲的为基础进行计算。我们的样本为 $x^{(1)},y^{(1)})=(1,1),(x^{(2)},y^{(2)}) =(2,2),(x^{(3)},y^{(3)})=(3,3)$ ，得到的代价函数如图所示。在此基础上，使用梯度下降算法来求解最优参数。
代价函数图像
（1）首先，我们都会有一个初始 $\theta$ 值，假设为 $\theta_{0}=0，\theta_{1}=0$ (此处可以不更新 $\theta_{0}的值，因为模型为h_{\theta(x)}=\theta_{1} x，\theta_{0}为0$ )。
（2）假设 $\alpha$ 为0.5，更新 $\theta$ 值。
$\begin{aligned} \theta_{0} &:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right) \\ \theta_{1} &:=\theta_{1}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right) \cdot x^{(i)} \end{aligned}$
当 $\theta_{1}=0$ 时，模型为 $h_{\theta(x)}=0+0*x$ ，所以：

$h_{\theta(1)}=0+0*1 = 0，h_{\theta(2)}=0+0*2 = 0，h_{\theta(3)}=0+0*3 = 0$ ，

①第一次更新：

$\theta_{0} := 0 -0.5*\frac{1}{3}*[(0-1)+(0-2)+(0-3)]=1$

$\theta_{1} := 0 -0.5*\frac{1}{3}*[(0-1)*1+(0-2)*2+(0-3)*3]= \frac{7}{3}$

可以看出， $\theta_{1}$ 的值直接从0到了2.3，跳过了最低点。

②第二更新：此时模型为 $\begin{array}{l}h_{\theta(x)}=1+ \frac{7}{3}x \end{array}$

$\theta_{0} := 1 -0.5*\frac{1}{3}*[(\frac{10}{3}-1)+(\frac{17}{3}-2)+(8-3)]=-\frac{5}{6}$

$\theta_{1} := \frac{7}{3}-0.5*\frac{1}{3}*[(\frac{10}{3}-1)*1+(\frac{17}{3}-2)*2+(8-3)*3]=- \frac{16}{9}$

可以看出， $\theta_{1}$ 的值又直接从2.3到了-1.8。
在这里插入图片描述
所以说，当 $\alpha$ 值较大时，将会导致无法收敛，或者会导致发散。
推荐的学习率值：

dyclg

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记04-梯度下降算法中的学习率（步长）

1、回顾之前所说的梯度下降算法中有几个细节，求导部分已经在上一节进行说明，接下来主要对公式当中的α\alphaα，即就是学习率（步长）进行说明。θj:=θj−α∂∂θjJ(θ0,θ1),for(j=1andj=0)\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J_{\left(\theta_{0}, \theta_{1}\right)},for(j=1 and j=0)θj:=θj−α∂θj∂J(θ0,θ
复制链接

扫一扫