优化算法进阶——学习打卡

最新推荐文章于 2022-09-26 10:05:26 发布

learnin_hard

最新推荐文章于 2022-09-26 10:05:26 发布

阅读量206

点赞数

文章标签：深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/learnin_hard/article/details/104462811

版权

在这里插入图片描述
为最小化损失函数进行参数更新时，对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。
损失函数中的参数，单独进行更新时参数们的收敛速度一般是不同的，这种不同造成了更新过程中损失值的震荡，或者难以收敛。如：f(x)=0.1 * x1^2 + 2 * x2^2中，x2与x1的梯度更新速度相差20倍。

给定学习率，梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么，我们需要一个较小的学习率从而避免自变量在竖直方向上越过目标函数最优解。然而，这会造成自变量在水平方向上朝最优解移动变慢。但将学习率调得稍大一点，此时自变量在竖直方向不断越过最优解并逐渐发散

为缓解上述问题，可以采取两种方法。
1：Preconditioning的做法：在二阶优化中，我们使用Hessian matrix的逆矩阵(或者pseudo inverse)来左乘梯度向量。
2：Averaging history gradient。

Momentum

增加动量m,momentum算法更新参数的两种写法：
在这里插入图片描述
由指数加权移动平均理解动量法。由指数加权移动平均的形式可得，动量m 实际上对序列nt*gt/(1-B) 做了指数加

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化算法进阶——学习打卡

为最小化损失函数进行参数更新时，对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。损失函数中的参数，单独进行更新时参数们的收敛速度一般是不同的，这种不同造成了更新过程中损失值的震荡，或者难以收敛。如：f(x)=0.1 * x1^2 + 2 * x2^2中，x2与x1的梯度更新速度相差20倍。给定学习率，梯度下降迭代自变量时会使自...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。