中学生能够读懂的梯度下降

最新推荐文章于 2024-08-27 14:38:12 发布

superdont

最新推荐文章于 2024-08-27 14:38:12 发布

阅读量1.1k

点赞数 3

分类专栏：深度学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/superdont/article/details/126984276

版权

深度学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

导读：猜猜张大爷多大了？

有一天，李立宗碰到了张大爷。他问张大爷，您多大了？

据目测，张大爷在85岁左右！

猜测原则：

最开始的猜测要和实际看起来的年龄差不多，而不是完全靠蒙。
不要超过实际年龄。

两人的对话基本如下：

在这里插入图片描述

此时，李立宗比较正常的做法是将N说成“88岁”而不是85.1岁或者95岁！

此时这个差值可以理解为在深度学习中的学习率（更新梯度的权重），这个学习率也是不能太高或者太低。

问题如下：

太低：学习时间过长。每次增加0.1，要猜30次左右，跟张大爷聊10分钟，才知道原来他是88岁。
太高：越过了正确值，用从反方向从新来过。例如，猜测95岁，张大爷可能要说，我没那么大。

当然，学过查找算法的同学可能会说先猜一个大值，然后用二分法不断地猜。这里，学习率不适用该算法。所以，我们不讨论通过二分法来提高效率。

当然，随着猜测的进行，需要用更小的差值（学习率）。不然，就猜过头了。

还有一个问题，张大爷可能是非常友善的，他会根据李立宗的回答而给出非常友善的反馈。

在这里插入图片描述

上述反馈和现实函数计算最小值是一样的，也就是说越接近最小值点，梯度越小。简单来说，越接近最小值的点，值的变化越小。

需要说明的是：在梯度下降过程中，学习率和梯度值是同时下降的。
上述仅仅是为了方便理解，举的一个不是十分严谨的例子。

梯度下降是什么？

下面，我们从另外一个角度看看梯度下降。

在下面的山林中，家在最低处。

因为眼前的树木遮住了视线，看不到家在哪，所以很容易迷路。家在最低处，要想回家，每次必须不断地向下走，才能最终回家。

在这里插入图片描述

从图中我们可以观察到，我们需要注意两点：

每次走多远：步子不能太大。我们假设，有一个居然能够一步从山的一边跨到另一边，那么恐怕他回家就困难了；
往哪个方向走：不要往山上走，要往山下走；

我们简单整理一个表达式：

新位置 = 原位置 - 每次步长 × 方向

当然，在深度学习中，我们经常需要计算的就是求解最小值。所以，我们看看梯度下降在求解最小值方面是如何应用的。

下面用一个具体的例子，展示一下到底是如何计算最小值的，及它的具体变化过程。

$y=x^2$

如果要计算上述表达式的最小值，我们就可以使用

新x值 = 上一次x值 - 步长 × 方向

根据导数的定义，方向可以用导数来替换。因此，上式就处理为：

xNew = xOld - alpha × 导数

更进一步来说：

针对 $y=x^2$ ，当前x=2，y=4，计算最终y可能的最小值。

下面看看计算最小值表达式中，各个值的情况：

xNew：需要计算的值；
xOld：上一次的x值，x=2;
alpha：步长，我们赋予步长一个适当的值，比如0.2；
导数：计算 $y=x^2$ 的导数，得到 y=2x，导数为“2x",x=2,则：导数=2x=4；

具体来说：

xNew = xOld - alpha × 导数

xNew = 2 - 0.2 * ( 2 × 2 ) = 2 - 0.8 = 1.2

yOld = 2^2 = 4

yNew = 1.2 ^ 2 = 1.44

通过不断地迭代上述过程，求解y的最小值。

xNew = 2 - 0.2 * ( 2 × 2 ) = 2 - 0.8 = 1.2 , 此时 $y=x^2=1.2^2=1.44$

xNew = 1.2 - 0.2 * ( 2 × 1.2 ) = 1.2 - 0.48 = 0.72 , 此时 $y=x^2=0.72^2=0.518$

xNew = 0.72 - 0.2 * ( 2 × 0.72 ) = 0.72 - 0.288 = 0.432 , 此时 $y=x^2=0.432^2=0.186624$

xNew = 0.432 - 0.2 * ( 2 × 0.432 ) = 0.432 - 0.1728 = 0.2592 , 此时 $y=x^2=0.2592^2=0.067185$

通过上述推导，可以看到，y的值是在不断减少的，如下图所示。

在这里插入图片描述

计算下式的导数， $y=x^2$ ，得到 y=2x

下面是上述过程的python实现代码，有兴趣的同学可以看看。
附录材料：

# -*- coding: utf-8 -*-
"""
Created on Fri Sep 16 20:34:56 2022

@author: 李立宗

公众号： 计算机视觉之光
"""

import matplotlib.pyplot as plt
import numpy as np
# 函数：y=x^2
def fx(x):
    return x**2

# 梯度下降算法（Gradient descent）
def gradient_descent():
    times = 5 # 要计算多少次（迭代次数）
    alpha = 0.2 # 学习率，步长
    x =2 # x初始值
    x_axis = np.linspace(-2, 2) #x轴范围
    fig = plt.figure(1,figsize=(5,5)) #显示窗口大小
    ax = fig.add_subplot(1,1,1) #一个主窗口内仅仅一个子窗口
    ax.set_xlabel('X', fontsize=14)
    ax.set_ylabel('Y', fontsize=14)
    ax.plot(x_axis,fx(x_axis)) #绘图
    # 开始多轮计算
    for i in range(times):  #控制运行次数
        x1 = x          
        y1= fx(x)  
        xOld=x
        x = x - alpha * 2 * x
        y = fx(x)
        print("第%d次迭代：x=%f=(%f-%f*(2*%f))，y=%f" % (i + 1, x,xOld,alpha,xOld, y1))
        ax.plot([x1,x], [y1,y], 'ko', lw=1, ls='-', color='coral')
    plt.show()

if __name__ == "__main__":
    gradient_descent()```

程序输出的结果如下图：

在这里插入图片描述

控制学习率

学习率相当于在山林中找回家的路时所使用的步长，就是每步走多少。

例如，下面的学习率比较适当。

在这里插入图片描述

如果让步长（学习率）变得小一点，需要学习更多次。

在这里插入图片描述

稍微改小一点学习率，一般来说问题不大。但是更小的学习率意味着更多的计算才能得到最终解。

在这里插入图片描述

如果学习率过小，则意味着计算量过大。极端情况下，设置了计算1000次结束，到了1000次，还是没有找到最优解。

在这里插入图片描述

学习率过大，可能导致导致错过最优解，但是可能也会找到。

在这里插入图片描述

当然，不合适的学习率，总是会浪费很多时间，极容易造成钟摆形，造成浪费。

在这里插入图片描述

下面这个是极端情况，当前的学习率正好在一个特定值（此处为1），让寻找最小值的过程在不断地左右摇摆中重复进行，最终无法找到最小值。

在这里插入图片描述

上面各个情况的合集。

在这里插入图片描述

梯度的理解

梯度会随着学习的不断深入，变得越来越小。

越接近目标时，梯度会变得越来越小。更进一步来说，计算 $y=x^2$ ，的导数 y=2x。梯度（导数）2x会随着x值的减少而不断减少。

随着y越来越逼近最小值，梯度（导数）也变得越来越小。
如下图所示，x的值在不断地减少，其梯度也在不断在减小。我们回忆一下前面张大爷的例子，随着我们距离目标越来越近，他也会给出越来越精确的提示。

我们猜某人出生时间，开始可能是猜他出生与哪个年代，然后具体到哪一年，然后具体到哪个月，哪天，上下午。

在这里插入图片描述

梯度（导数），衡量的山坡的陡峭程度。可以看到如下三条曲线，其所反映的陡峭程度是不一样的。

在往山下移动时，不同的陡峭程度，移动的的趋势（加速度）是不同的。

在这里插入图片描述

如果有兴趣，可以运行如下python代码：

# -*- coding: utf-8 -*-
"""
Created on Sun Sep 18 20:53:55 2022

@author: 李立宗
公众号：计算机视觉之光
"""

import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(-10,10,500)
y1 = 1/2*x**2
y2 = x**2
y3 = 2*x**2
 
plt.plot(x,y1,color = 'r',label = 'y1')        
plt.plot(x,y2,'-.', color = 'b', label = 'y2')
plt.plot(x,y3,'--', color = 'g', label = 'y3')
plt.legend(loc=' best')

plt.show()