PyTorch 06—基础总结

心之所向便是光v

已于 2022-03-11 16:01:55 修改

阅读量1.7k

点赞数 2

分类专栏： PyTorch笔记文章标签：深度学习人工智能

于 2022-03-10 21:20:34 首次发布

本文链接：https://blog.csdn.net/qq_39172845/article/details/123410835

版权

PyTorch笔记专栏收录该内容

12 篇文章 28 订阅

订阅专栏

梯度下降算法

多层感知器：

多层感知器的优化算法是梯度下降算法。

梯度下降法是一种致力于找到函数极值点的算法；前面介绍过，所谓“学习”便是改进模型参数，以便通过大量训练步骤将损失最小化。有了这个概念，将梯度下降法应用于寻找损失函数的极值点便构成了依据输入数据的模型学习。

梯度的输出是一个由若干偏导数构成的向量，它的每个分量对应于函数对输入向量的相应分量的偏导：

梯度的输出向量表明了在每个位置损失函数增长最快的方向 ，可将它视为表示了在函数的每个位置向哪个方向移动函数值可以增长。

曲线对应于损失函数。点表示权值的当前值，即现在所在的位置。梯度用箭头表示，表明为了增加损失，需要向右移动。此外，箭头的长度概念化地表示了如果在对应的方向移动，函数值能够增长多少。如果向着梯度的反方向移动，则损失函数的值会相应减小。

沿着损失函数减小的方向移动，并再次计算梯度值，并重复上述过程，直至梯度的模为0，将到达损失函数的极小值点。这正是我们的目标。

学习效率

梯度就是表明损失函数相对参数的变化率；对梯度进行缩放的参数被称为学习速率（learning rate）。学习速率是一种超参数或对模型的一种手工可配置的设置，需要为它指定正确的值。如果学习速率太小，则找到损失函数极小值点时可能需要许多轮迭代；如果太大，则算法可能会“跳过”极小值点并且因周期性的“跳跃”而永远无法找到极小值点。在具体实践中，可通过查看损失函数值随时间的变化曲线，来判断学习速率的选取是合适的。

合适的学习速率，损失函数随时间下降，直到一个底部不合适的学习速率，损失函数可能会发生震荡。

为什么不按照梯度的值，整个的进行变化，而要进行缩放呢？

如果按照梯度的值直接进行下降，不进行缩放的话，它会有一个问题。比如有一个数据过来，按照他的梯度进行下降，可能只是到了这一个数据的最低点，但是我们想要找到的极值点并不是单纯的针对某一个数据而言，我们是针对全部的训练数据，希望找到他们共同的极值点，而不是一个单个或者小批次数据的极值点。所以，我们要对梯度进行缩放，从每一个批次上学习到一些东西，然后观察所有的数据进行下降。在这个过程中，我们会对这个数据学习多次，每一此都学一点知识，从而让这个模型看到了更多的数据，从更多的数据上学到了如何下降。

学习速率选取原则

在调整学习速率时，既需要使其足够小，保证不至于发生超调，也要保证它足够大，以使损失函数能够尽快下降，从而可通过较少次数的迭代更快地完成学习。

可能面临局部极小值点的问题：

局部极小值点并不是函数的最小值点。

可通过将权值随机初始化来改善局部极值的问题。权值的初值使用随机值，可以增加从靠近全局最优点附近开始下降的机会。

反向传播算法

谓的梯度下降，梯度是如何传播的呢？就是使用的反向传播算法。反向传播算法是一种高效计算数据流图中梯度的技术，每一层的导数都是后一层的导数与前一层输出之积，这正是链式法则的奇妙之处，误差反向传播算法利用的正是这一特点。

我们在整个模型的优化过程，分为两个阶段。第一个阶段是前馈过程：输入经过每一层的传播到达了输出层，最后得到一个loss；这是前向传播的过程，例如给定一张图片，我们得到一个输出，然后这个输出与真实的输出进行比较或者交叉熵的计算，得到了一个loss。这就是前馈的过程。
另一个过程是反向传播，这个时候我们会计算导数，从输出层经过各个隐含层，逐一逐一反向
传播。

梯度如何传播的呢？梯度下降算法是一种参数的优化方法，也就是说去计算每一个参数对应的梯度，然后根据这个参数的梯度对这个参数进行改变（优化），从而使得loss下降。

前馈时，从输入开始，逐一计算每个隐含层的输出，直到输出层。

然后开始计算导数，并从输出层经各隐含层逐一反向传播。为了减少计算量，还需对所有已完成计算的元素进行复用。这便是反向传播算法名称的由来。

由于前面有很多层，每一层的导数都是后一层的导数乘前一层的输出。可能有些项会进行抵消，故而传播速度很快。

反向传播计算出每一个参数的梯度之后，接着就要应用到优化器去优化每一个参数

优化器

优化器 (optimizer) 是根据反向传播计算出的梯度，优化模型参数的内置方法。

SGD：随机梯度下降优化器。

随机梯度下降优化器SGD和min-batch是同一个意思，抽取m个小批量（独立同分布）样本，通过计算他们平梯度均值。

每一次随机的选取一个小的批次的样本，通过计算它们的平均梯度，再对这个模型进行优化。SGD并不是只对单个样本进行梯度下降的算法，单个样本分布是随机的，可能有这种异常值，这时候使用梯度下降会引起梯度的剧烈震荡。所以使用随机梯度下降对小的批次进行训练，计算出它们的平均梯度，再进行优化。

原来的计算不是要把整个训练集都计算一遍吗？现在是这次随机挑选一个批次数据，用这些数据计算修改参数值，下一次下一步训练的时候再随机挑选一个批次数据，再训练一次....

SGD参数：

        lr: float >= 0. 学习率。

        momentum: float >= 0. 参数，用于加速 SGD 在相关方向上前进，并抑制震荡。

        decay: float >= 0. 每次参数更新后学习率衰减值。

        nesterov: boolean. 是否使用 Nesterov 动量。

momentum动量优化算法：优化下降的路径，用更小的步数，更快的达到极值点。如果选择了随机梯度下降法，每一次都是随机挑选一个批次的数据求梯度,这个随机批次的数据肯定是有偏差的。计算出来的梯度可能就和最后最快下降的方向有偏差的，这就带来了优化的空间。

之前说的梯度下降法，其实是一个点的梯度，是这个点下降最快的方向，如果想把整个下降最优的路线描述出来，每一次迭代的步长要无限的小才行。每一次迭代都是有一个确定的步长，这就导致不会和最优的下降路线重合。

比如A点经过这一次迭代的步长，到达A'，中间经过了B点，但是B点的最快下降方向不是之前A点的下降方向。

momentum动量优化算法不仅考虑当前批次的梯度，还会考虑你前面学习过的批次的梯度，我们这次下降多少呢？我们会对前面的梯度进行加权求和（距离当前越近的数据权重越大，越远的数据权重越小），和这批次的梯度求和，得出一个下降的值，进行下降。这会使得模型梯度下降更快，使得梯度下降沿着梯度下降过程进行下降，而不是上下震荡方向进行震荡。以前的改变是有惯性的，要想发生改变必须先将它们抵消然后才能发生变化。有了这样的一个历史动量之后，出来的效果当然更加稳定。

RMSprop

经验上，RMSProp被证明有效且实用的深度学习网络优化算法。RMSProp增加了一个衰减系数来控制历史信息的获取多少，RMSProp会对学习率进行衰减。即学习速率是一个动态的过程，刚开始很大，然后快到达底部的时候越来越小。特别适合优化序列问题。

建议使用RMSprop优化器的默认参数（除了学习率 lr，它可以被自由调节），这个优化器通常是训练循环神经网络RNN的不错选择。

RMSprop参数：

lr: float >= 0. 学习率。
rho: float >= 0. RMSProp梯度平方的移动均值的衰减率.
epsilon: float >= 0. 模糊因子. 若为 None, 默认为K.epsilon()。
decay: float >= 0. 每次参数更新后学习率衰减值。