HBU_神经网络与深度学习 作业12 网络优化与正则化

写在前面的一些内容

本次习题来源于 神经网络与深度学习 pdf电子书的第204页(对应纸质版第189页)的习题7-1、7-2和7-9,具体内容详见 NNDL 作业12
水平有限,难免有误,如有错漏之处敬请指正。

习题7-1

在小批量梯度下降中,试分析为什么学习率要和批量大小成正比。

在小批量梯度下降中,有
g t ( θ ) = 1 K ∑ ( x , y ) ∈ S t ∂ L ( y , f ( x ; θ ) ) ∂ θ g_t(\theta)=\frac{1}{K}\sum_{(x,y)\in S_t}\frac{\partial L(y,f(x;\theta))}{\partial\theta} gt(θ)=K1(x,y)StθL(y,f(x;θ))
θ = θ t − 1 − α g t \theta=\theta_{t-1}-\alpha g_t θ=θt1αgt g t = 1 K δ g_t=\frac{1}{K}\delta gt=K1δ,则
θ = θ t − 1 − α K δ \theta=\theta_{t-1}-\frac{\alpha}{K}\delta θ=θt1Kαδ而我们需要得到参数最优,就需要 α K \frac{\alpha}{K} Kα最优,

因此,学习率要和批量大小成正比。

习题7-2

在Adam算法中,说明指数加权平均的偏差修正的合理性。
即公式
M ^ t = M t 1 − β 1 t \hat{M}_t=\frac{M_t}{1-\beta^t_1} M^t=1β1tMt和公式 G ^ t = G t 1 − β 2 t \hat{G}_t=\frac{G_t}{1-\beta^t_2} G^t=1β2tGt

在Adam算法中,有:
M t = β 1 M t − 1 + ( 1 − β 1 ) g t G t = β 2 G t − 1 + ( 1 − β 2 ) g t ⊙ g t M_t=\beta_1M_{t-1}+(1-\beta_1)g_t \\ G_t=\beta_2G_{t-1}+(1-\beta_2)g_t\odot g_t Mt=β1Mt1+(1β1)gtGt=β2Gt1+(1β2)gtgt因此,当 β 1 → 1 , β 2 → 1 \beta_1\rightarrow1,\beta_2\rightarrow1 β11,β21时,存在
lim ⁡ β 1 → 1 M t = M t − 1 lim ⁡ β 2 → 1 G t = G t − 1 \lim_{\beta_1\rightarrow1}M_t=M_{t-1} \\ \lim_{\beta_2\rightarrow1}G_t=G_{t-1} β11limMt=Mt1β21limGt=Gt1可以发现,前后两轮的值趋近于相等,这会导致梯度消失,后续梯度不再下降,

因此,我们需要对指数加权平均进行偏差修正操作。

习题7-9

证明在标准的随机梯度下降中,权重衰减正则化和 ℓ 2 ℓ_2 2正则化的效果相同,并分析这一结论在动量法和Adam算法中是否依然成立。



L t L_t Lt为第 t t t步的损失函数,则有
L t = L 0 + λ 2 ∣ ∣ w ∣ ∣ 2 L_t=L_0+\frac{\lambda}{2}||w||^2 Lt=L0+2λw2 (即 l 2 l_2 l2正则化)。

L t L_t Lt求关于 w w w b b b的偏导:
∂ L t ∂ w = ∂ L 0 ∂ w + λ w ∂ L t ∂ b = ∂ L 0 ∂ b \frac{\partial L_t}{\partial w}=\frac{\partial L_0}{\partial w}+\lambda w \\ \frac{\partial L_t}{\partial b}=\frac{\partial L_0}{\partial b} wLt=wL0+λwbLt=bL0标准的随机梯度下降中,有:
w ← w − η ( ∂ L 0 ∂ w + λ w ) = ( 1 − η λ ) w − η ∂ L 0 ∂ w w\leftarrow w-\eta(\frac{\partial L_0}{\partial w}+\lambda w)=(1-\eta\lambda)w-\eta\frac{\partial L_0}{\partial w} wwη(wL0+λw)=(1ηλ)wηwL0同理,有:
b ← b − η ∂ L 0 ∂ b b\leftarrow b - \eta\frac{\partial L_0}{\partial b} bbηbL0 η λ = β \eta\lambda=\beta ηλ=β,可以得到
θ t ← ( 1 − β ) θ t − 1 − α g t \theta_t \leftarrow(1-\beta)\theta_{t-1}-\alpha g_t θt(1β)θt1αgt
L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(即动量法和Adam算法),L2正则化会导致导致具有较大历史参数(和/或)梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

EX

总结网络优化与正则化。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值