几种加速训练方法，优化器

最新推荐文章于 2024-08-24 09:48:55 发布

Fan72

最新推荐文章于 2024-08-24 09:48:55 发布

阅读量1.2k

点赞数 1

分类专栏： Learning notes TensorFlow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fzp95/article/details/83018744

版权

Learning notes 同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

摘自莫烦python中关于TensorFlow的讲解

传统的参数更新方式如下，传统的参数 W 的更新是把原始的 W 累加上一个负的学习率(learning rate) 乘以校正值 (dx).这种方法可能会让学习过程曲折无比, 看起来像喝醉的人回家时, 摇摇晃晃走了很多弯路.
在这里插入图片描述

Stochastic Gradient Descent (SGD) 随机梯度下降法

略

Momentum

Momentum 相当于利用了下降的惯性，把这个人从平地上放到了一个斜坡上, 只要他往下坡的方向走一点点, 由于向下的惯性, 他不自觉地就一直往下走, 走的弯路也变少了
在这里插入图片描述

AdaGrad

他的作用和 momentum 类似, 不过不是给喝醉酒的人安排另一个下坡, 而是给他一双不好走路的鞋子, 使得他一摇晃着走路就脚疼, 鞋子成为了走弯路的阻力, 逼着他往前直着走.
在这里插入图片描述

RMSProp

RMSProp同时具备以上两种方法的优势. 不过 RMSProp 还没把 Momentum合并完全, 还缺少了红框中的一部分. 所以, Adam的方法中补上了这种想法.
在这里插入图片描述

Adam

计算m 时有 momentum 下坡的属性, 计算 v 时有 adagrad 阻力的属性, 然后再更新参数时把 m 和 V 都考虑进去. 实验证明, 大多数时候, 使用 adam 都能又快又好的达到目标, 迅速收敛
在这里插入图片描述

Momentum、AdaGrad、RMSProp、Adam都是在学习率上做文章

TensorFlow提供了一下几种优化器：
在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。