TensorFlow 实现深度网络——自适应学习率算法

最新推荐文章于 2024-04-27 15:14:21 发布

Ftwhale

最新推荐文章于 2024-04-27 15:14:21 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：算法深度学习机器学习 tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ftwhale/article/details/105022229

版权

本文介绍了深度学习优化中常用的自适应学习率算法，包括AdaGrad、RMSProp和Adam。AdaGrad独立适应所有参数学习率，但可能受早期梯度影响过大。RMSProp通过指数衰减平均解决了这一问题。Adam算法进一步改进，结合了一阶和二阶矩估计，通常在深度神经网络中表现优秀。

摘要由CSDN通过智能技术生成

在使用基本的梯度下降法优化算法时，会遇到一个常见的问题一一要优化的参数对于目标函数的依赖各不相同。形象地说，对于某些参数，通过算法已经优化到了极小值附近，但是有的参数仍然有着很大的梯度，这就是使用统一的全局学习率可能出现的问题。如果学习率太小，则梯度很大的参数会有一个很慢的收敛速度；如果学习率太大，则己经优化得差不多的参数可能会出现不稳定的情况。因此，最近，提出了一些增量（或者基于小批量）的算法来自适应模型参数的学习率。

下面对这些算法进行简单介绍。

AdaGrad算法

AdaGrad算法能够独立地适应所有模型参数的学习率，当参数的损失偏导值比较大时，它应该有一个较大的学习率；而当参数的损失偏导值比较小时，它应该有一个较小的学习率。

首先设全局学习率为σ，初始化的参数为ω，一个为了数值稳定而创建的小常数δ（建议默认取=10-7）,以及一个梯度累积变量r （初始化r=0 ）。然后就是算法的主体，循环执行以下步骤，在没有达到停止的条件前不会停止。

1）从训练、数据集中取出包含m 个样本的小批量数据的对应的目标用yi 表示：
在这里插入图片描述

2 ）在小批量数据的基础上按照以下公式计算梯度：

在这里插入图片描述
3 ）累积平方梯度ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow 实现深度网络——自适应学习率算法

在使用基本的梯度下降法优化算法时，会遇到一个常见的问题一一要优化的参数对于目标函数的依赖各不相同。形象地说，对于某些参数，通过算法已经优化到了极小值附近，但是有的参数仍然有着很大的梯度，这就是使用统一的全局学习率可能出现的问题。如果学习率太小，则梯度很大的参数会有一个很慢的收敛速度；如果学习率太大，则己经优化得差不多的参数可能会出现不稳定的情况。因此，最近，提出了一些增量（或者基于小批量）的算法来...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。