自适应学习速率调整和常用的梯度下降算法

最新推荐文章于 2022-05-12 10:06:25 发布

墨氲

最新推荐文章于 2022-05-12 10:06:25 发布

阅读量1w

点赞数 1

分类专栏： python深度学习文章标签： python tensorflow

python深度学习专栏收录该内容

13 篇文章 11 订阅

订阅专栏

chapter 4 Beyond Gradient Desent

英语词汇

intracttable 棘手的，难以解决的

hundle 障碍

内容

主要讲述几种优化算法。
接下来探索局部最小值以及由此在训练网络中可能引起的问题。接着探索由于网络模型过深而引起的误差非凸面化，在这种情况下，小批量梯度下降算法失效。接着将探索非凸优化方法是如何克服这种问题的。

1. 误差曲面的非凸性

有很多的局部最小值，而神经网络需要找到全局最小值
这里写图片描述

这个是题外话，了解一下阿偶：
* 模型唯一性
这里写图片描述
对于一个l层，每层有n个神经元的网络，有 $n^{!^l}$ 中安排参数的方法，最终网络的输出相同。

解决局部最小值的方法：

mini-batch gradient descent
蒙特卡洛方法

使用随机数（或更常见的伪随机数）来解决很多计算问题的方法,很经典的一个问题：利用投针实验求解圆周率 $\pi$
二阶方法(second-order methods)

2. 学习比率的问题

学习速率调整(learning rate adaptation)

选择正确的学习速率很重要，学习速率过小，收敛速度过慢
学习速率太大，直接忽略某些局部最小值

学习速率自适应调整（learning rate adaption）：在训练过程中适当的修改学习速率来达到更好的收敛性

三个最流行的学习速率自调整算法

AdaGrad
利用每次迭代历史的梯度平方根的和来修改学习速率

$\bigodot$ 是矩阵的点乘， $\epsilon$ 是初始学习速率

r0=0

ri=ri−1+gi⨀gi

θi=θi−1−ϵδ⨁ri−−√⨀g

$\delta \approx 10^{-7}$ 避免除以0
python tensorflow调用代码：
```
tf.train.AdagradOptimizer(
  learning_rate,
  initial_accumulator_valuer=0.1,
  use_locking=False,
  name='Adagrad'
)
```
在tensorflow中， $\delta$ 和initial_accumulator_valuer在一起.
- RMSProp
  $r i = ρ r i - 1 + (1 - ρ) g i ⨀ g i$ $r_i = \rho r_{i-1} + (1 - \rho)g_i \bigodot g_i$
  衰退因子 $(decay factor)$ $\rho$ 决定对历史梯度的保留程度
python tensorflow调用代码：
```
tf.train.RMSPropOptimizer(
learning_rate,
decay=0.9,
momentum=0.0,
epsilon=1e-10,
use_locking=False,
name='RMSProp'
)
```

通过调整momentum来确定是否使用蒙特卡洛方法

RMSProp是一个非常高效的算法，对于很多的资深从业者而言是默认的选择

Adam 将蒙特卡洛和RMSProp结合起来
```
tf.train.AdamOptimizer(
learning_rate=0.001,
beta1=0.9,
beta2=0.999,
epsilon=1e-8,
use_locking=False,
name='Adam'
)
```
很先进高效
默认参数下已经表现的很好了，只需要修改参数learning_rate就好了。

总结

最流行的算法：
误差曲面非凸
1. mini-batch gradient descent
2. mini-batch gradient with momentum
- 学习速率
  1. RMSProp
  2. RMSProp with momentum
  3. Adam

主要是好的网络结构可以比训练算法有更好的效果，所有好的网络结构更值得花时间构建

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
自适应学习速率调整和常用的梯度下降算法

chapter 4 Beyond Gradient Desent英语词汇intracttable 棘手的，难以解决的hundle 障碍内容主要讲述几种优化算法。接下来探索局部最小值以及由此在训练网络中可能引起的问题。接着探索由于网络模型过深而引起的误差非凸面化，在这种情况下，小批量梯度下降算法失效。接着将探索非凸优化方法是如何克服这种问题的。1. 误差曲面...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。