AI学习笔记——Tensorflow中的Optimizer(优化器)

最新推荐文章于 2021-04-27 20:25:54 发布

weixin_34125592

最新推荐文章于 2021-04-27 20:25:54 发布

阅读量268

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/655948

版权

在使用Tensorflow搭建神经网络的时候，最后一步总会用到tf.train.XxxOptimizer(). 然后会有很多Optimizer()如下图

其实这些Optimizer 都是优化算法下面重点介绍几个常见的

1. Gradient Decent

这是最基础的梯度下降算法，更新权重W，不多解释。

W += - α * dx

其中 α是learning rate(学习速率)。我们可以把下降的损失函数看成一个机器人，由于在下降的时候坡度不是均匀的，机器人会左右摇摆，所以下降速度会比较慢，有时候遇到局部最优，还可能在原地徘徊好长时间。

2. Momentum

顾名思义这个优化算法实际上给了一个动量，让机器人下降的的时候带一个惯性，下降的速度就加快了。

算法如下：
m = b1*m - α * dx
W += m

3. AdaGrad

这个算法是通过动态改变学习速率，提高下降速度，相当于给机器人穿上一个左右侧滑有阻力的鞋子，让它只好沿着正确的方向下滑。

v = dx^2
W += -(α/sqrt(v)) * dx

4. RMSProp

这个算法相当于在AdaGrad中引入了Momentum的惯性
v = b1 * v + (1-b1)*dx^2
W += -(α/sqrt(v)) * dx
但是RMSprop缺少了Momentum的变量m

5. Adam

Adam是目前用得最广的优化算法，它结合了AdaGrad和Momentum的优点(所以叫才Adam嘛)

m = b1m + (1-b1)dx
v = b2v + (1-b2)dx^2
W += -(α*m/sqrt(v)) * dx

这个算法相当于给机器人一个惯性，同时还让它穿上了防止侧滑的鞋子，当然就相当好用用啦。

给大家看看不同优化算法下降速度的差距

文章首发steemit.com 为了方便墙内阅读，搬运至此，欢迎留言或者访问我的Steemit主页

weixin_34125592

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AI学习笔记——Tensorflow中的Optimizer(优化器)

在使用Tensorflow搭建神经网络的时候，最后一步总会用到tf.train.XxxOptimizer(). 然后会有很多Optimizer()如下图其实这些Optimizer 都是优化算法下面重点介绍几个常见的1. Gradient Decent这是最基础的梯度下降算法，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。