tensorflow笔记之反向传播时用到的几种方法

最新推荐文章于 2024-08-27 15:17:04 发布

dianxiang0791

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量98

点赞数

文章标签：人工智能大数据

原文链接：http://www.cnblogs.com/buxizhizhoum/p/8253885.html

版权

1. 梯度下降， tf.train.GradientDescentOptimizer(0.05),梯度下降的问题在与不一定能获得全局最优解，并且因为要在所有数据上最小化损失，所以损失函数是在所有训练数据上的损失和，所以在大数据情况下，需要的时间相当长。

2.随机梯度下降，随机梯度下降优化的不是全部数据上的损失函数，在每一轮迭代中，都随机选择一条训练数据进行优化，这样训练时间大大减小，但是由于某一条数据上的全局最小不一定代表所有数据的全局最小，所以随机梯度下降也不一定能达到全局最优解。

为了综合梯度下降和随机梯度下降的优点，在实际训练中通常将训练数据分为多个batch，每次只训练一个batch，这样可以大大减小收敛所需的迭代次数。

3. MomentumOptimizer()，解决了梯度下降无法跳出局部极小值的问题。

4. AdagradOptimizer()，根据每个变量变换优化步长，考虑了变量梯度的整个历史。

5. AdadeltaOptimizer()，Adagrad有时候会很快使梯度到0，为了解决这个问题，Adadelta可以限制最少使用多少步。

转载于:https://www.cnblogs.com/buxizhizhoum/p/8253885.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tensorflow笔记之反向传播时用到的几种方法

1. 梯度下降，tf.train.GradientDescentOptimizer(0.05),梯度下降的问题在与不一定能获得全局最优解，并且因为要在所有数据上最小化损失，所以损失函数是在所有训练数据上的损失和，所以在大数据情况下，需要的时间相当长。2.随机梯度下降，随机梯度下降优化的不是全部数据上的损失函数，在每一轮迭代中，都随机选择一条训练数据进行优化，这样训练时间大大减小，但...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。