神经网络的几种参数更新方法

最新推荐文章于 2023-06-22 10:07:37 发布

NGC 604

最新推荐文章于 2023-06-22 10:07:37 发布

阅读量3.1k

点赞数 2

分类专栏：人工智障

本文链接：https://blog.csdn.net/rakish_wind/article/details/105764748

版权

4 篇文章 0 订阅

订阅专栏

method 1：Stochastic Gradient Descend

在这里插入图片描述

SGD 的缺点是，如果函数的形状各向异性（anisotropic），比如呈延伸状，搜索的路径就会非常低效。因此，我们需要比单纯朝梯度方向前进的 SGD 更聪明的方法。
SGD 低效的根本原因是，梯度的方向并没有指向最小值的方向

在这里插入图片描述

这里新出现了一个变量v ，对应物理上的速度。式（6.3）表示了物体在梯度方向上受力，在这个力的作用下，物体的速度增加这一物理法则。Momentum 方法给人的感觉就像是小球在地面上滚动。
αv：在物体不受任何力时，该项承担使物体逐渐减速的任务（α 设定为 0.9 之类的值），对应物理上的地面摩擦或空气阻力。
初始化时，v 中什么都不保存，但当第一次调用 update() （就是参数更新的一个函数）时，v 会以字典型变量的形式保存与参数结构相同的数据
更新路径就像小球在碗中滚动一样。和 SGD 相比，“之”字形的“程度”减轻了。这是因为虽然 x 轴方向上受到的力非常小，但是一直在同一方向上受力，所以朝同一个方向会有一定的加速。反过来，虽然 y 轴方向上受到的力很大，但是因为交互地受到正方向和反方向的力，它们会互相抵消，所以 y 轴方向上的速度不稳定。因此，和 SGD 时的情形相比，可以更快地朝 x 轴方向靠近，减弱“之”字形的变动程度

这个v变量很关键，它是参数矩阵移动的速度，整个参数矩阵就像一个小球，那么小球在下坡时速度是从0开始增长的，到达坡底时速度最大。这个v它其实本质上就是控制了参数每一步走的距离，因为开始速度小，所以距离小，速度大时，距离就大，这就类似于小球的物理运动。
可以看到，总体上，每个参数点的距离都比SGD小太多，这样小距离的好处就是，能及时更新方向，而且在更新的时候要加上速度矩阵，因为梯度是实时的，就像加速度，但运行方向会由于惯性，受到速度矩阵的影响。所以总结就是，参数更新会受到梯度（加速度，就是当前受到的力）和速度的同时影响，那么这就非常像物理运动了。其实梯度就是参数在这个斜面的受力，是导数，导数就是参数的加速度，是变化率
这就解释了为什么到达下面这个点时，为什么不往红点处走（因为红点方向是梯度方向），而是往右，就是因为速度的影响，假设这里速度=0，那么就会朝红点方向走了

在关于学习率的有效技巧中，有一种被称为学习率衰减（learning rate decay）的方法，即随着学习的进行，使学习率逐渐减小。实际上，一开始“多”学，然后逐渐“少”学的方法，在神经网络的学习中经常被使用
- 逐渐减小学习率的想法，相当于将“全体”参数的学习率值一起降低。而 AdaGrad 进一步发展了这个想法，针对“一个一个”的参数，赋予其“定制”的值
AdaGrad 会为参数的每个元素适当地调整学习率，与此同时进行学习（AdaGrad 的 Ada 来自英文单词 Adaptive，即“适当的”的意思）
这里新出现了变量h ，如式 (6.5) 所示，它保存了以前的所有梯度值的平方和（式（6.5）中的圆点表示对应矩阵元素的乘法）。然后，在更新参数时，通过乘以 1/根号h，就可以调整学习的尺度
这意味着，参数的元素中变动较大（被大幅更新）的元素的学习率将变小。也就是说，可以按参数的元素进行学习率衰减，使变动大的参数的学习率逐渐减小
AdaGrad 会记录过去所有梯度的平方和。因此，学习越深入，更新的幅度就越小。实际上，如果无止境地学习，更新量就会变为 0，完全不再更新。所以，该方法还有替换方案，这里就不说了。

感觉不用深究了。。tai nan le!
Adam 是 2015 年提出的新方法。它的理论有些复杂，直观地讲，就是融合了 Momentum 和 AdaGrad 的方法。通过组合前面两个方法的优点，有望实现参数空间的高效搜索。此外，进行超参数的“偏置校正”也是 Adam 的特征。这里不再进行过多的说明，详细内容请参考原作者的论文