谈深度学习里的那些优化方法

最新推荐文章于 2023-11-21 23:09:35 发布

学-evday

最新推荐文章于 2023-11-21 23:09:35 发布

阅读量189

点赞数

分类专栏：机器学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/ilalaaa/article/details/107966806

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在学习对抗攻击的时候，接触到了“动量”这一概念，就去初步了解了下，顺便对于其他优化方法浅浅地也认识了下。
在深度学习中，为寻找最优解使得损失函数的值最小，我们经常会用到优化方法。下面，对这些优化方法简要介绍。

1. SGD

SGD，即随机梯度下降算法，通过从训练集中随机抽取 $m$ 个小批量的样本，计算它们的平均梯度值，根据这个，对模型的参数进行更新。该优化算法实际上就是min-batch的实现，是最基础的优化算法，当今大部分优化算法都是以SGD为基础实现的。

需要注意的是，在优化过程中，要随迭代步数，逐渐降低学习率。
随机梯度下降和批梯度下降的区别只是输入的数据分别是mini-batch和all。

2. Momentum(动量)

举个例子，如果你站在一个地方不动，让你立刻向后转齐步走，你可以迅速向后转然后就向相反的方向走了起来，批梯度下降和随机梯度下降就是这样，某一时刻的梯度只与这一时刻有关，改变方向可以做到立刻就变。而如果你正在按照某个速度向前跑，再让你立刻向后转，可以想象得到吧，此时你无法立刻将速度降为0然后改变方向，你由于之前的速度的作用，有可能会慢慢减速然后转一个弯。

而动量梯度下降是同理的，每一次梯度下降都会有一个之前的速度的作用，如果这次的方向与之前相同，则会因为之前的速度继续加速；如果这次的方向与之前相反，则会由于之前存在的速度的作用不会产生一个急转弯，而是尽量把路线向一条直线拉过去。

直观上讲，要是当前时刻的梯度与历史时刻梯度方向相似，这种趋势在当前时刻则会加强；要是不同，则当前时刻的梯度方向减弱。此时的梯度不再只是现在的数据的梯度，而是有一定权重的之前的梯度。

注意：动量方法主要是为了解决Hessian矩阵病态条件问题（直观上讲就是梯度高度敏感于参数空间的某些方向）的。一般将参数设为0.5,0.9，或者0.99，分别表示最大速度2倍，10倍，100倍于SGD的算法。