tensorflow的优化器比较

最新推荐文章于 2024-09-02 11:13:52 发布

黄小猿

最新推荐文章于 2024-09-02 11:13:52 发布

阅读量4.0k

点赞数 1

分类专栏： tensorflow 文章标签：深度学习优化器优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39422642/article/details/77471335

版权

tensorflow 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

标准梯度下降法：汇总所有样本的总误差，然后根据总误差更新权值

随机梯度下降：随机抽取一个样本误差，然后更新权值（每个样本都更新一次权值，可能造成的误差比较大）

批量梯度下降法：相当于前两种的折中方案，抽取一个批次的样本计算总误差，比如总样本有10000个，可以抽取1000个作为一个批次，然后根据该批次的总误差来更新权值。（常用）

momentum:当前权值的改变会收到上一次权值的改变的影响，就像小球滚动时候一样，由于惯性，当前状态会受到上一个状态影响，这样可以加快速度。

NAG（Nesterov Accelerated gradient）与momentum相比，它更为聪明，因为momentum是一个路痴，它不知道去哪里，而NAG则知道我们的目标在哪里。也就是NAG知道我们下一个位置大概在哪里，然后提前计算下一个位置的梯度。然后应用于当前位置指导下一步行动。

Adagrad:核心思想是对于常见的数据给予比较小的学习率去调整参数，对于不常见的数据给予比较大的学习率调整参数。它可以自动调节学习率，但迭代次数多的时候，学习率也会下降。

RMSprob :采用前t-1次梯度平方的平均值加上当前梯度的平方的和再开放作为分母

Adadelta ：不使用学习率

Adam ：会把之前衰减的梯度和梯度平方保存起来，使用RMSprob，Adadelta相似的方法更新参数

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。