关于梯度下降的三个算法:梯度下降,随机梯度下降,以及小批量皮杜下降已经在该篇博文中介绍:https://blog.csdn.net/weixin_42109859/article/details/104822335
但对梯度下降使用同一固定不变的超参数会引发一些问题。
例如当我们的目标函数为 f ( x ) = 0.1 x 1 2 + 2 x 2 2 f(\boldsymbol{x})=0.1x_1^2+2x_2^2 f(x)=0.1x12+2x22,学习率采用0.4时,其损失的迭代轨迹如下:
可以看到,同一位置上,目标函数在竖直方向( x 2 x_2 x2
优化算法-momentum(动量法)
最新推荐文章于 2024-06-30 10:56:23 发布