momentum超参数

代维7

于 2024-01-07 11:54:20 发布

阅读量1.1k

点赞数 21

文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Recursions/article/details/135437802

版权

momentum 是优化算法中的一个超参数，主要用于改善梯度下降的收敛性能，特别是在处理非凸优化问题时。它在随机梯度下降（Stochastic Gradient Descent, SGD）和其变种中经常被使用。

以下是动量的主要作用和原理：

加速收敛： 动量的引入旨在加速模型训练的收敛过程。它模拟了物体在运动过程中的动量，帮助模型在梯度更新时更快地前进。
克服局部极小值： 动量有助于克服梯度下降中可能遇到的局部极小值。由于动量的存在，即使在梯度变小的区域，模型也有一定的“惯性”，可以越过这些局部最小值。
减小震荡： 动量有助于减小参数更新时的震荡，特别是在曲线陡峭或弯曲的情况下。它可以在梯度变化较大的方向上积累速度，从而减小参数在这些方向上的更新幅度。

动量的计算方式通常是使用一个指数衰减的移动平均，具体公式如下：
$\ v_t = \beta \cdot v_{t-1} + (1 - \beta) \cdot g_t \$

在实际梯度更新时，动量被加到梯度上，以影响参数的更新：

$\ \theta_{t+1} = \theta_t - \alpha \cdot v_t \$

关注

21
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
momentum超参数

是优化算法中的一个超参数，主要用于改善梯度下降的收敛性能，特别是在处理非凸优化问题时。动量有助于减小参数更新时的震荡，特别是在曲线陡峭或弯曲的情况下。它可以在梯度变化较大的方向上积累速度，从而减小参数在这些方向上的更新幅度。动量有助于克服梯度下降中可能遇到的局部极小值。由于动量的存在，即使在梯度变小的区域，模型也有一定的“惯性”，可以越过这些局部最小值。动量的引入旨在加速模型训练的收敛过程。它模拟了物体在运动过程中的动量，帮助模型在梯度更新时更快地前进。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。