神经网络中的优化方法

最新推荐文章于 2024-05-05 23:58:08 发布

lankuohsing

最新推荐文章于 2024-05-05 23:58:08 发布

阅读量680

点赞数 1

分类专栏：学习笔记理论学习文章标签：神经网络梯度下降优化方法

本文链接：https://blog.csdn.net/THUChina/article/details/80710200

版权

学习笔记同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

1. Mini-batch decent方法

1.1. Batch vs. mini-batch

Batch：利用矢量化编程的方法，对整个训练集运用梯度下降法。梯度每下降一小步，都要处理整个训练集。这样的效率比较慢。
Mini-batch：将训练集拆分为更小的训练集，成为小批量训练集（mini-batch)
Mini-batch t: $X^{\{t\}},Y^{\{t\}}$
对每个mini-batch都进行一次完整的前向和反向传播过程，当对所有的mini-batch都进行了前向和反向过程后，我们称完成了对训练集的一次遍历（epoch）。
Batch gradient descent，原则上cost应该是单调下降（除非learning rate太大了）；Mini-batch gradient descent，整体趋势下降，但是局部是振荡的。

1.2. Choosing mini-batch size

如果mini-batch size=m：等价于batch gradient descent，一般可以收敛到全局最小值点；
如果mini-batch size=1：等价于stochastic gradient descent，不一定收敛到全局最小值点，一般会在该点处振荡。
如果训练集较小（<2000），就使用batch gradient descent；否则，可以选择64到512之间（2的幂数）的mini-batch size。确保可以放入CPU/GPU的内存中

2. 指数加权平均方法（exponentially weighted averages）

图2.1 指数加权平均例子-寻找温度趋势

v 0 v 1 v 2 v 3 ⋮ = 0 = 0.9 v 0 + 0.1 θ 1 = 0.9 v 1 + 0.1 θ 2 = 0.9 v 2 + 0.1 θ 3 (2-1)

$\begin{align*} v_0&=0\\ v_1&=0.9v_0+0.1\theta_1\\ v_2&=0.9v_1+0.1\theta_2\\ v_3&=0.9v_2+0.1\theta_3\\ \vdots\\ \tag{2-1} \end{align*}$
第t天的指数平均值的通项公式：

v t = β v t - 1 + (1 - β) θ t = (1 - β) (θ t + β θ t - 1 + \dots + β k θ t - k + \dots + β t - 1 θ 1) (2-2)

$\begin{align*} v_t&=\beta v_{t-1}+(1-\beta)\theta_t \\ &=(1-\beta)\left(\theta_t+\beta\theta_{t-1}+\cdots+\beta^{k}\theta_{t-k}+\cdots+\beta^{t-1}\theta_{1}\right) \\ \tag{2-2} \end{align*}$
近似公式：

v t \approx 1 1 - β d a y s' t e m p e r a t u r e (2-3)

$v_t\approx \frac{1}{1-\beta}\ days'\ temperature\tag{2-3}$
如图2.2所示，当

β β $\beta$ 增大时，曲线向右平移（绿线）；

β β $\beta$ 减小时，曲线振荡加剧（黄线），

图2.2 β大小对曲线形状的影响

2.1. Bias Correction（偏差修正）

原因： $v_0=0$ 导致初始阶段的点估计不准
解决方法：用 $\frac{v_t}{1-\beta^t}$ 代替 $v_t$

3. Gradient descent with momentum（动量梯度下降）

背景问题：当目标函数的等高线为图3.1所示时，梯度下降的过程中可能会发生振荡：

图3.1 梯度下降振荡的例子>
Momentum：
On iteration t:
Compute

dw,db d w , d b $dw,db$ on current mini-batch.

v d w v d b w b = β v d w + (1 - β) d w = β v d b + (1 - β) d b : = w - α v d w; : = b - α v d b (3-1)

$\begin{align*} v_{dw}&=\beta v_{dw}+(1-\beta)dw \\ v_{db}&=\beta v_{db}+(1-\beta)db \\ w&:=w-\alpha v_{dw};\\ b&:=b-\alpha v_{db}\\ \tag{3-1} \end{align*}$
采用前面提到的指数加权平均可以使梯度的下降过程更平滑。
一般

β β $\beta$ 取0.9就好，而且实际中一般不用修正偏差，因为迭代几步后偏差就自动减小很多了。

4. RMSprop（Root Mean Square prop，均方根传递）

On iteration t:
Compute $dw,db$ on current mini-batch.

s d w s d b w b = β s d w + (1 - β) d w 2 = β s d b + (1 - β) d b 2 : = w - α d w s d w - - - \sqrt; : = b - α d b s d b - - - \sqrt (4-1)

$\begin{align*} s_{dw}&=\beta s_{dw}+(1-\beta)dw^2 \\ s_{db}&=\beta s_{db}+(1-\beta)db^2 \\ w&:=w-\alpha \frac{dw}{\sqrt{ s_{dw}}};\\ b&:=b-\alpha \frac{db}{\sqrt{ s_{db}}}\\ \tag{4-1} \end{align*}$
垂直方向除以一个较大的数，水平方向除以一个较小的数（假设b是垂直方向，w是水平方向）。为了防止分母出现零的情况，可以在分母加上一个小的

ϵ ϵ $\epsilon$

5. Adam优化算法

Adam的本质是将动量和RMSprop结合起来。
$v_{dw}=0,s_{dw}=0.v_{db}=0,s_{db}=0.$
On iteration t:
Compute $dw,db$ on current mini-batch.

v d w v d b s d w s d b V c o r r e c t e d d w S c o r r e c t e d d w w b = β 1 v d w + (1 - β 1) d w = β 1 v d b + (1 - β 1) d b = β 2 s d w + (1 - β 2) d w 2 = β 2 s d b + (1 - β 2) d b 2 = v d w / (1 - β t 1), V c o r r e c t e d d b = v d b / (1 - β t 1) = s d w / (1 - β t 2), S c o r r e c t e d d b = s d b / (1 - β t 2) : = w - α V c o r r e c t e d d w S c o r r e c t e d d w - - - - - - - \sqrt; : = b - α V c o r r e c t e d d b S c o r r e c t e d d b - - - - - - - \sqrt (5-1)

$\begin{align*} v_{dw}&=\beta_1 v_{dw}+(1-\beta_1)dw \\ v_{db}&=\beta_1 v_{db}+(1-\beta_1)db \\ s_{dw}&=\beta_2 s_{dw}+(1-\beta_2)dw^2 \\ s_{db}&=\beta_2 s_{db}+(1-\beta_2)db^2 \\ V_{dw}^{corrected}&=v_{dw}/\left(1-\beta_1^t\right),V_{db}^{corrected}=v_{db}/\left(1-\beta_1^t\right)\\ S_{dw}^{corrected}&=s_{dw}/\left(1-\beta_2^t\right),S_{db}^{corrected}=s_{db}/\left(1-\beta_2^t\right)\\ w&:=w-\alpha \frac{V_{dw}^{corrected}}{\sqrt{ S_{dw}^{corrected}}};\\ b&:=b-\alpha \frac{V_{db}^{corrected}}{\sqrt{ S_{db}^{corrected}}}\\ \tag{5-1} \end{align*}$
超参数：

α α $\alpha$ :人工调整

β1:0.9 β 1 : 0.9 $\beta_1:0.9$ ，

(dw) ( d w ) $(dw)$

β2:0.999 β 2 : 0.999 $\beta_2:0.999$ ，

(dw2) ( d w 2 ) $(dw^2)$

ϵ ϵ $\epsilon$ :

10−8 10 − 8 $10^{-8}$

6. 学习率衰减（learning rate decay）

图6.1 固定学习率导致不能完全收敛的示意图
解决方法：让学习率

α α $\alpha$ 逐渐下降。
下降的形式：
-

α=11+decay−rate ∗ epoch−num α = 1 1 + d e c a y − r a t e ∗ e p o c h − n u m $\alpha=\frac{1}{1+decay-rate\ *\ epoch-num}$
-

α=0.95epoch−num⋅α0 α = 0.95 e p o c h − n u m ⋅ α 0 $\alpha=0.95^{epoch-num}\cdot\alpha_0$
-

α=ke√poch−numα0 α = k e p o c h − n u m α 0 $\alpha=\frac{k}{\sqrt epoch-num}\alpha_0$
- …

lankuohsing

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络中的优化方法

1. Mini-batch decent方法1.1. Batch vs. mini-batch1.2. Choosing mini-batch size2. 指数加权平均方法（exponentially weighted averages）2.1. Bias Correction（偏差修正）3. Gradient descent with momentum（动量梯度下降...
复制链接

扫一扫