TASK6

最新推荐文章于 2024-06-21 21:42:01 发布

just__we

最新推荐文章于 2024-06-21 21:42:01 发布

阅读量200

点赞数

分类专栏： pytorch

原文链接：https://blog.csdn.net/weixin_40170902/article/details/80092628

版权

pytorch 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

梯度下降法（Gradient Descent）

目前梯度下降法，目前分为三种梯度下降法：标准梯度下降法（GD，Grandient Descent），随机梯度下降法（SGD，Stochastic Gradient Descent）及批量梯度下降法（BGD，Batch Gradient Descent）

1、标准梯度下降（GD）

假设要学习训练的模型参数 $W$ ，代价函数为 $J (W)$ 则代价函数关于模型参数的偏导数即相关梯度 $\Delta J(W)$ ，学习率为 $\eta_t$ ，则使用梯度下降法更新参数为：
$W_{t+1} = W_t - \eta\Delta J(W_t)$
W 为模型参数
从表达式来看，模型参数的更新调整，与代价函数关于模型参数的梯度有关，即沿着梯度的方向不断减少模型参数，从而最小化代价函数
基本策略是“在有限视距内寻找最快路径下山”，因此没走一步，参考当前位置走最陡的方向（即梯度）进而迈出下一步。可以表示为下图：

缺点：
训练速度慢：每走一步就需要调整下一步的方向，下山的速度变慢。在应用大型数据集中，每输入一个样本都要更新一次参数，且每次迭代都要遍历所有的样本。使得训练过程及其缓慢，需要花费很长时间才能得到收敛解
容易陷入局部最优解：由于是在有限视距内寻找下山的反向。当陷入平坦的洼地，会误以为达到了山谷最低点，从而不会继续往下走。所谓局部最优解就是鞍点。落入鞍点，梯度为0使得模型不会更新

2.批量梯度下降法（BGD）

假设批量训练样本总数为n，每次输入和输出的样本分别为 $X^{(i)},Y^{(i)}$ ,模型参数为 $W$ ，代价函数为 $J (W)$ ，每输入一个样本 $i$ 代价函数关于 $W$ 的梯度为 $\Delta J_i(W_t,X^{(i)},Y^{(i)})$ ，学习率为 $\eta_t$ ，则使用批量梯度下降更新的公式如下：
$W_{t+1} = W_t - \eta_t\sum_{i=1}^{n}\Delta J_i(W_t,X^{(i)},Y^{(i)})$
其中， $W_t$ 表示 $t$ 时刻的模型参数
从表达式来看，模型参数的调整更新与全部输入样本的代价函数的和（即批量/全局误差）有关。即每次权值调整发生在批量样本输入之后，而不是每输入一个样本就更新一次模型参数。这样就会大大加快训练速度
基本策略可以理解，在下山之前掌握了附近的地势情况，选择总体平均梯度最小的方向下山。
评价：
批量梯度下降法比标准梯度下降法训练时间短，且每次下降的方向很正确

3.随机梯度下降法（SGD）

对比批量梯度下降法，假设从一批训练样本 $n$ 中随机选取一个样本 $i_s$ 。模型参数为 $W$ ，代价函数为 $J (W)$ ，梯度为 $\Delta J(W)$ ，学习率为 $\eta_t$ ，则使用随机梯度下降法更新参数表达式为：
$W_t = W_t - \eta_tg_t$
其中， $g_t = \Delta J_{i_s}(W_t;X^{i_s};X^{(i_S)}),i_s\in {1,2,...,n}$ 表示随机选择的一个梯度方向， $W_t$ 表示 $t$ 时刻的模型参数。
$E(g_t)=\Delta J(W_t)$ ，这里引入了随机性和噪声，但期望仍然等于正确的梯度下降。
基本测率可以理解为随机梯度下降像一个盲人下山，不用每走一步计算一次梯度，但总能下到山底，只不过过程很扭曲
评价
优点
虽然SGD像需要走很多步，但是对梯度的要求很低（计算梯度快）。引入噪声，大量的理论和实践工作证明，只要噪声不是很大，SGD会很好的收敛。
应用大型数据，训练速度很快。例如每次从百万数据样本中，取几百个数据点，算一个SGD梯度，更新一下模型参数。相比于标准梯度下降法遍历全部样本，每输入一个样本更新一次参数，要快的多
缺点
SGD在随机选择梯度的同时会引入噪声，使得权值更新的方向不一定正确
未能克服局部最优解问题

动量优化法

动量优化方法是在梯度下降法的基础上进行的基础上进行的改变，具有加速梯度下降的作用。一般有标准动量优化方法Momentum、NAG(Nesterov accelerated gradient)动量优化方法。
NAG在Tensorflow中与Momentum合并在同一函数tf.train.MomentumOptimizer中，可以通过参数配置启用

1.Momentum

使用动量（Momentum）的随机梯度下降法（SGD），主要思想是引入一个积攒历史梯度信息动量来加速SGD
从训练集中取一个大小为 $n$ 的小批量 ${X^{(1)},X^{(2)},...,X^{(n)}\}$ 样本，对应的真实值分别为 $Y^{(i)}$ ，则Momentum表示为
$\left\{\begin{matrix} & v_t = \alpha v_{t-1}+\eta_t\Delta J(W_t,X^{i_s},Y^{(i_s)}) & \\ & W_{t+1} = W_t - v_t & \end{matrix}\right.$
其中， $v_t$ 表示t时刻积攒的加速度； $\alpha$ 表示动力的大小；一般取值为0.9（表示最大速度10倍于SGD）。 $\Delta J(W_t,X^{(i_s)},Y^{(i_s)})$ 含义见SGD算法。 $W_t$ 表示t时刻模型参数。
动量主要解决SGD的两个问题：一是随机梯度的方法（引入的噪声）；二是Hessian矩阵病态问题（可以理解为SGD在收敛过程中和正确梯度相比来回摆动比较大的问题）。
理解策略为：由于当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球向下滚动的速度。