[AI 笔记] Optimization参数优化

最新推荐文章于 2024-04-27 08:07:43 发布

mark__tuwen

最新推荐文章于 2024-04-27 08:07:43 发布

阅读量609

点赞数

分类专栏： AI 笔记文章标签：人工智能深度学习计算机视觉神经网络算法

本文链接：https://blog.csdn.net/mark__tuwen/article/details/106659066

版权

AI 笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

[AI 笔记] Optimization参数优化

SGD的问题
SGD + Momentum
AdaGrad
RMSProp
Adam
总结

参考资料：
CS231n

SGD的问题

现在假设对2维的参数空间进行优化，如下图：

其中最红的地方代表最小值点，即优化目标。

对于SGD而言，就是简单地计算梯度，然后把负梯度乘以一定的学习率后加在权重上对其更新。
在这里插入图片描述
按照SGD的更新策略，其从初始位置到达最优点的路径应该如下图所示，是之字形的路线。显然效率不高。

另外，如果在参数空间中遇到极小值点，或者鞍点（saddle point），由于这两处的梯度为0，SGD就会卡住，如下图所示。

在实际操作中，由于有成千上万个参数，参数空间为成千上万维。在任意一个方向上，损失都增加的概率比较小，所以极小值点出现的概率是比较小的，遇到最多的问题应该是鞍点。

对于鞍点而言，在其两边的梯度接近于0，也会导致模型训练速度过慢。
在这里插入图片描述
另外，SGD的梯度来源于minibatch，即小批量数据，而不是全局的梯度，所以相当于在真实梯度上加入了噪声，如下图所示。也会影响训练速度。

SGD + Momentum

一个简单的解决办法就是加动量的SGD，如下图所示。在这里插入图片描述
这里定义一个动量 v，结合下图进行理解。真实的前进方向是梯度与Velocity的矢量和。

加动量的SGD相当于每次都具有一个初速度，这样遇到鞍点，或者极小值点，就能跳出来了。如下图所示，其接近最小值的路径也不是之字形了。
在这里插入图片描述