梯度下降

最新推荐文章于 2022-03-26 19:46:50 发布

guohahaya

最新推荐文章于 2022-03-26 19:46:50 发布

阅读量68

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37008037/article/details/106598151

版权

https://mp.weixin.qq.com/s/Bu9GDxQQRaw74uLFPteI5w

1 mini-batch梯度下降法
在实际应用中，由于样本数量庞大，训练数据上百万是很常见的事。如果每执行一次梯度下降就遍历整个训练样本将会耗费大量的计算机资源。在所有样本中随机抽取一部分(mini-batch)样本，抽取的样本的分布规律与原样本基本相同，事实发现，实际训练中使用mini-batch梯度下降法可以大大加快训练速度。
1.1 实现方法
mini-batch梯度下降法的思想很简单，将样本总体分成多个mini-batch。例如100万的数据，分成10000份,每份包含100个数据的mini-batch-1到mini-batch-10000，每次梯度下降使用其中一个mini-batch进行训练，除此之外和梯度下降法没有任何区别。

深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程。

固定学习率的优化算法

1GD

在GD中，每次迭代都要用到全部训练数据。

SGD

在SGD中，每次迭代可以只用一个训练数据来更新参数。
回到GD的更新算法，假设此时我们此时训练数据就只有一条(x,y)，

SGD

基本的mini-batch SGD优化算法在深度学习取得很多不错的成绩。然而也存在一些问题需解决：

1. 选择恰当的初始学习率很困难。

2. 学习率调整策略受限于预先指定的调整规则。

3. 相同的学习率被应用于各个参数。

4. 高度非凸的误差函数的优化过程，如何避免陷入大量的局部次优解或鞍点。

SGD最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

自适应学习率的优化算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降

1 mini-batch梯度下降法在实际应用中，由于样本数量庞大，训练数据上百万是很常见的事。如果每执行一次梯度下降就遍历整个训练样本将会耗费大量的计算机资源。在所有样本中随机抽取一部分(mini-batch)样本，抽取的样本的分布规律与原样本基本相同，事实发现，实际训练中使用mini-batch梯度下降法可以大大加快训练速度。1.1 实现方法mini-batch梯度下降法的思想很简单，将样本总体分成多个mini-batch。例如100万的数据，分成10000份,每份包含100个数据的mini-bat
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。