《动手学深度学习》第三十天---梯度下降和随机梯度下降

最新推荐文章于 2024-02-04 15:52:58 发布

打着灯笼摸黑

最新推荐文章于 2024-02-04 15:52:58 发布

阅读量340

点赞数

分类专栏：《动手学深度学习》

本文链接：https://blog.csdn.net/qq_39594939/article/details/100061516

版权

《动手学深度学习》专栏收录该内容

37 篇文章 46 订阅

订阅专栏

（一）一维梯度下降

首先看一段代码：

%matplotlib inline
import d2lzh as d2l
import math
from mxnet import nd
import numpy as np

def gd(eta):
    x = 10
    results = [x]
    for i in range(10):
        x -= eta * 2 * x  # f(x) = x * x的导数为f'(x) = 2 * x
        results.append(x)
    print('epoch 10, x:', x)
    return results

我们可以看出上述代码实现了通过
在这里插入图片描述
来迭代x，其中η=0.2，f(x) = x * x，x初始值为10，一共迭代了十次最后得到x=0.06。

这个过程有什么意义呢？根据泰勒展开公式我们知道：
在这里插入图片描述
这里?′(?)是函数?在?处的梯度。一维函数的梯度是一个标量，也称导数。接下来，找到一个常数?>0，使得||??′(?)||足够小，那么可以将?替换为−??′(?)并得到。

如果导数?′(?)≠0，那么??′(?)^2>0，所以
这样得到的就是
我们通过选取一个初始值x和常数η>0，然后不断通过迭代x达到停止条件（条件自己可以设置，比如?′(?)^2的值已足够小，或者设置迭代次数）。

设置追踪迭代轨迹的函数show_trace():

def show_trace(res):
    n=max(abs(min(res)),abs(max(res)),10)  # abs(x)表示取绝对值
    f_line=np.arange(-n,n,0.1)
    d2l.set_figsize()
    d2l.plt.plot(f_line,[x*x for x in f_line])  # plt.plot(x,y,format_string,**kwargs)，x轴数据，y轴数据，format_string控制曲线的格式字串 
    d2l.plt.plot(res,[x*x for x in res],'-o') # -o 表示实心圈标记
    d2l.plt.xlabel('x')
    d2l.plt.ylabel('f(x)')

在这里插入图片描述

（二）学习率

上述梯度下降算法中的正数 ? 通常叫作学习率。这是一个超参数，需要人工设定。

如果使用过小的学习率，会导致 ? 更新缓慢从而需要更多的迭代才能得到较好的解。
如果使用过大的学习率，||??′(?)|| 可能会过大从而使前面提到的一阶泰勒展开公式不再成立：这时我们无法保证迭代 ? 会降低?(?) 的值

（三）多维梯度下降

同样先看一段代码：
zip和*zip的用法

def train_2d(trainer):   # 用来记录所有迭代的轨迹过程
    x1,x2,s1,s2 = -5,-2,0,0   # s1和s2是自变量状态
    results=[(x1,x2)]
    for i in range(20):
        x1,x2,s1,s2 = trainer(x1,x2,s1,s2)
        results.append((x1,x2))
        print('epoch %d,x1 %f,x2 %f' % (i+1,x1,x2))
        return results

def show_trace_2d(f,results):  #绘制迭代轨迹
    d2l.plt.plot(*zip(*results),'-o',color='#ff7f0e')
     # *zip()函数是zip()函数的逆过程，将zip对象变成原先组合前的数据
    x1,x2 = np.meshgrid(np.arange(-5.5,1.0,0.1),np.arange(-3.0,1.0,0.1))
    # np.meshgrid(*xi, **kwargs) 从坐标向量中返回坐标矩阵 ，例如X轴可以取三个值1,2,3,  Y轴可以取两个值7,8, 就可以获得6个点的坐标。
    d2l.plt.contour(x1,x2,f(x1,x2),color='#1f77b4')  # 绘制等高线
    d2l.plt.xlabel('x1')
    d2l.plt.ylabel('x2'）
    
eta = 0.1  # 学习率0.1

def f_2d(x1,x2):  # 定义原函数
    return x1 ** 2 + 2 * x2 ** 2
    
def gd_2d(x1,x2,s1,s2):  # 定义梯度
    return (x1 - eta * 2 * x1,x2- eta * 4 * x2,0,0)
    
show_trace_2d(f_2d,train_2d(gd_2d))   # 绘制图像

在这里插入图片描述

上述过程是构造了一个输入的二维向量?=[?1,?2]⊤和输出为标量的目标函数?(?)=?1^2
+2*?2^2。那么，梯度∇?(?)=[2?1,4?2]⊤。我们将观察梯度下降从初始位置[-5,-2]开始对自变量x的迭代轨迹，一共迭代二十次，学习率为0.1。

对于一个d维向量：
在这里插入图片描述
目标函数有关x的梯度是一个由d个偏导数组成的向量：

方向导数D??(?)给出了?在?上沿着所有可能方向的变化率，可以表示为：

为了最小化f，我们希望找到f能被降低最快的方向，也就可以通过最小化方向导数来得到，而当?在梯度方向∇?(?)的相反方向时，方向导数D??(?)被最小化，f也就不断被降低。
因此可以通过：
在这里插入图片描述
得到最小的f。

（四）随机梯度下降

在深度学习里，目标函数通常是训练数据集中有关各个样本的损失函数的平均。设??(?)是有关索引为 ? 的训练数据样本的损失函数，?是训练数据样本数，?是模型的参数向量，那么目标函数定义为
在这里插入图片描述
目标函数在x处的梯度计算为：

如果使用梯度计算，当训练样本数很大时，梯度下降每次迭代的计算开销都很高。

随机梯度下降在每次迭代中，随即均匀采样的样本索引来计算随机梯度∇??(?)，进而迭代x：
在这里插入图片描述
值得强调的是，随机梯度∇??(?)是对梯度∇?(?)的无偏估计。这意味，随机梯度是对梯度的一个良好的估计。

def sgd_2d(x1,x2,s1,s2):
    return (x1-eta*(2*x1+np.random.normal(0.1)),
           x2-eta*(4*x2+np.random.normal(0.1)),0,0)  
           # 通过在梯度中添加均值为0的随机噪声来模拟随机梯度下降
show_trace_2d(f_2d,train_2d(sgd_2d))

在这里插入图片描述