神经网络中的优化方法


1. Mini-batch decent方法

1.1. Batch vs. mini-batch

Batch:利用矢量化编程的方法,对整个训练集运用梯度下降法。梯度每下降一小步,都要处理整个训练集。这样的效率比较慢。
Mini-batch:将训练集拆分为更小的训练集,成为小批量训练集(mini-batch)
Mini-batch t: X{t},Y{t} X { t } , Y { t }
对每个mini-batch都进行一次完整的前向和反向传播过程,当对所有的mini-batch都进行了前向和反向过程后,我们称完成了对训练集的一次遍历(epoch)
Batch gradient descent,原则上cost应该是单调下降(除非learning rate太大了);Mini-batch gradient descent,整体趋势下降,但是局部是振荡的。

1.2. Choosing mini-batch size

  • 如果mini-batch size=m: 等价于batch gradient descent,一般可以收敛到全局最小值点;
  • 如果mini-batch size=1:等价于stochastic gradient descent,不一定收敛到全局最小值点,一般会在该点处振荡。
    如果训练集较小(<2000),就使用batch gradient descent;否则,可以选择64到512之间(2的幂数)的mini-batch size。确保可以放入CPU/GPU的内存中

2. 指数加权平均方法(exponentially weighted averages)


图2.1 指数加权平均例子-寻找温度趋势

v0v1v2v3=0=0.9v0+0.1θ1=0.9v1+0.1θ2=0.9v2+0.1θ3(2-1) (2-1) v 0 = 0 v 1 = 0.9 v 0 + 0.1 θ 1 v 2 = 0.9 v 1 + 0.1 θ 2 v 3 = 0.9 v 2 + 0.1 θ 3 ⋮

第t天的指数平均值的通项公式:
vt=βvt1+(1β)θt=(1β)(θt+βθt1++βkθtk++βt1θ1)(2-2) (2-2) v t = β v t − 1 + ( 1 − β ) θ t = ( 1 − β ) ( θ t + β θ t − 1 + ⋯ + β k θ t − k + ⋯ + β t − 1 θ 1 )

近似公式:
vt11β days temperature(2-3) (2-3) v t ≈ 1 1 − β   d a y s ′   t e m p e r a t u r e

如图2.2所示,当 β β 增大时,曲线向右平移(绿线); β β 减小时,曲线振荡加剧(黄线),

图2.2 β大小对曲线形状的影响

2.1. Bias Correction(偏差修正)

原因: v0=0 v 0 = 0 导致初始阶段的点估计不准
解决方法:用 vt1βt v t 1 − β t 代替 vt v t

3. Gradient descent with momentum(动量梯度下降)

背景问题:当目标函数的等高线为图3.1所示时,梯度下降的过程中可能会发生振荡:


图3.1 梯度下降振荡的例子>

Momentum:
On iteration t:
  Compute dw,db d w , d b on current mini-batch.
vdwvdbwb=βvdw+(1β)dw=βvdb+(1β)db:=wαvdw;:=bαvdb(3-1) (3-1) v d w = β v d w + ( 1 − β ) d w v d b = β v d b + ( 1 − β ) d b w := w − α v d w ; b := b − α v d b

采用前面提到的指数加权平均可以使梯度的下降过程更平滑。
一般 β β 取0.9就好,而且实际中一般不用修正偏差,因为迭代几步后偏差就自动减小很多了。

4. RMSprop(Root Mean Square prop,均方根传递)

On iteration t:
  Compute dw,db d w , d b on current mini-batch.

sdwsdbwb=βsdw+(1β)dw2=βsdb+(1β)db2:=wαdwsdw;:=bαdbsdb(4-1) (4-1) s d w = β s d w + ( 1 − β ) d w 2 s d b = β s d b + ( 1 − β ) d b 2 w := w − α d w s d w ; b := b − α d b s d b

垂直方向除以一个较大的数,水平方向除以一个较小的数(假设b是垂直方向,w是水平方向)。为了防止分母出现零的情况,可以在分母加上一个小的 ϵ ϵ

5. Adam优化算法

Adam的本质是将动量和RMSprop结合起来。
vdw=0,sdw=0.vdb=0,sdb=0. v d w = 0 , s d w = 0. v d b = 0 , s d b = 0.
On iteration t:
  Compute dw,db d w , d b on current mini-batch.

vdwvdbsdwsdbVcorrecteddwScorrecteddwwb=β1vdw+(1β1)dw=β1vdb+(1β1)db=β2sdw+(1β2)dw2=β2sdb+(1β2)db2=vdw/(1βt1),Vcorrecteddb=vdb/(1βt1)=sdw/(1βt2),Scorrecteddb=sdb/(1βt2):=wαVcorrecteddwScorrecteddw;:=bαVcorrecteddbScorrecteddb(5-1) (5-1) v d w = β 1 v d w + ( 1 − β 1 ) d w v d b = β 1 v d b + ( 1 − β 1 ) d b s d w = β 2 s d w + ( 1 − β 2 ) d w 2 s d b = β 2 s d b + ( 1 − β 2 ) d b 2 V d w c o r r e c t e d = v d w / ( 1 − β 1 t ) , V d b c o r r e c t e d = v d b / ( 1 − β 1 t ) S d w c o r r e c t e d = s d w / ( 1 − β 2 t ) , S d b c o r r e c t e d = s d b / ( 1 − β 2 t ) w := w − α V d w c o r r e c t e d S d w c o r r e c t e d ; b := b − α V d b c o r r e c t e d S d b c o r r e c t e d

超参数:
α α :人工调整
β1:0.9 β 1 : 0.9 (dw) ( d w )
β2:0.999 β 2 : 0.999 (dw2) ( d w 2 )
ϵ ϵ : 108 10 − 8

6. 学习率衰减(learning rate decay)


图6.1 固定学习率导致不能完全收敛的示意图

解决方法:让学习率 α α 逐渐下降。
下降的形式:
- α=11+decayrate  epochnum α = 1 1 + d e c a y − r a t e   ∗   e p o c h − n u m
- α=0.95epochnumα0 α = 0.95 e p o c h − n u m ⋅ α 0
- α=kepochnumα0 α = k e p o c h − n u m α 0
- …

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值