sgd

最新推荐文章于 2024-09-04 06:30:00 发布

weixin_42612033

最新推荐文章于 2024-09-04 06:30:00 发布

阅读量1.8k

收藏 3

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

SGD

SGD即随机梯度下降。是梯度下降的batch版本。
对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个训练集。即：
在这里插入图片描述
其中，η为学习率，gt为x在t时刻的梯度。

Momentum

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。

momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

在这里插入图片描述

其中，ρ 即momentum，表示要在多大程度上保留原来的更新方向，这个值在0-1之间，在训练开始时，由于梯度可能会很大，所以初始值一般选为0.5；当梯度不那么大时，改为0.9。η 是学习率，即当前batch的梯度多大程度上影响最终更新方向，跟普通的SGD含义相同。ρ 与 η 之和不一定为1。

Nesterov Momentum

这是对传统momentum方法的一项改进，
　　Nesterov Momentum

在这里插入图片描述

首先，按照原来的更新方向更新一步（棕色线），然后在该位置计算梯度值（红色线），然后用这个梯度值修正最终的更新方向（绿色线）。上图中描述了两步的更新示意图，其中蓝色线是标准momentum更新路径。

keras.optimizers.SGD

keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)

随机梯度下降法，支持动量参数，支持学习衰减率，支持Nesterov动量

Keras 已经内置了一个基于时间的学习速率调整表，并通过上述参数中的 decay 来实现，学习速率的调整公式如下：

LearningRate = LearningRate * 1/(1 + decay * epoch)

weixin_42612033

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weixin_42612033

博客等级

码龄6年

62
原创

10
点赞

37
收藏

2
粉丝

关注

私信

热门文章

分类专栏

分布式 4篇
R 1篇
sql 4篇
java 5篇
排序 2篇
python 25篇
git
c 17篇
tensorflow 6篇
机器学习 10篇
php javascript 11篇
系统 1篇

最新评论

keras 或者tensorflow损失函数
CSDN-Ada助手: 非常感谢你分享关于keras或者tensorflow损失函数的博客！我觉得下一篇你可以写一篇关于如何优化损失函数的技术文章，例如使用梯度下降法或者其他优化算法来最小化损失函数。这样的文章对其他用户学习深度学习和优化算法都会有很大的帮助，相信会有更多读者受益于你的分享。期待你的下一篇技术博文！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
hadoop writable
ctotalk: mark
删除换行符
ctotalk: 坚持。

最新文章

2020年9篇

2019年39篇

2018年38篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值