写在前面的一些内容
本次习题来源于 神经网络与深度学习 pdf电子书的第204页(对应纸质版第189页)的习题7-1、7-2和7-9,具体内容详见 NNDL 作业12 。
水平有限,难免有误,如有错漏之处敬请指正。
习题7-1
在小批量梯度下降中,试分析为什么学习率要和批量大小成正比。
在小批量梯度下降中,有
g
t
(
θ
)
=
1
K
∑
(
x
,
y
)
∈
S
t
∂
L
(
y
,
f
(
x
;
θ
)
)
∂
θ
g_t(\theta)=\frac{1}{K}\sum_{(x,y)\in S_t}\frac{\partial L(y,f(x;\theta))}{\partial\theta}
gt(θ)=K1(x,y)∈St∑∂θ∂L(y,f(x;θ))而
θ
=
θ
t
−
1
−
α
g
t
\theta=\theta_{t-1}-\alpha g_t
θ=θt−1−αgt令
g
t
=
1
K
δ
g_t=\frac{1}{K}\delta
gt=K1δ,则
θ
=
θ
t
−
1
−
α
K
δ
\theta=\theta_{t-1}-\frac{\alpha}{K}\delta
θ=θt−1−Kαδ而我们需要得到参数最优,就需要
α
K
\frac{\alpha}{K}
Kα最优,
因此,学习率要和批量大小成正比。
习题7-2
在Adam算法中,说明指数加权平均的偏差修正的合理性。
即公式
M ^ t = M t 1 − β 1 t \hat{M}_t=\frac{M_t}{1-\beta^t_1} M^t=1−β1tMt和公式 G ^ t = G t 1 − β 2 t \hat{G}_t=\frac{G_t}{1-\beta^t_2} G^t=1−β2tGt
在Adam算法中,有:
M
t
=
β
1
M
t
−
1
+
(
1
−
β
1
)
g
t
G
t
=
β
2
G
t
−
1
+
(
1
−
β
2
)
g
t
⊙
g
t
M_t=\beta_1M_{t-1}+(1-\beta_1)g_t \\ G_t=\beta_2G_{t-1}+(1-\beta_2)g_t\odot g_t
Mt=β1Mt−1+(1−β1)gtGt=β2Gt−1+(1−β2)gt⊙gt因此,当
β
1
→
1
,
β
2
→
1
\beta_1\rightarrow1,\beta_2\rightarrow1
β1→1,β2→1时,存在
lim
β
1
→
1
M
t
=
M
t
−
1
lim
β
2
→
1
G
t
=
G
t
−
1
\lim_{\beta_1\rightarrow1}M_t=M_{t-1} \\ \lim_{\beta_2\rightarrow1}G_t=G_{t-1}
β1→1limMt=Mt−1β2→1limGt=Gt−1可以发现,前后两轮的值趋近于相等,这会导致梯度消失,后续梯度不再下降,
因此,我们需要对指数加权平均进行偏差修正操作。
习题7-9
证明在标准的随机梯度下降中,权重衰减正则化和 ℓ 2 ℓ_2 ℓ2正则化的效果相同,并分析这一结论在动量法和Adam算法中是否依然成立。
①
设
L
t
L_t
Lt为第
t
t
t步的损失函数,则有
L
t
=
L
0
+
λ
2
∣
∣
w
∣
∣
2
L_t=L_0+\frac{\lambda}{2}||w||^2
Lt=L0+2λ∣∣w∣∣2 (即
l
2
l_2
l2正则化)。
对
L
t
L_t
Lt求关于
w
w
w和
b
b
b的偏导:
∂
L
t
∂
w
=
∂
L
0
∂
w
+
λ
w
∂
L
t
∂
b
=
∂
L
0
∂
b
\frac{\partial L_t}{\partial w}=\frac{\partial L_0}{\partial w}+\lambda w \\ \frac{\partial L_t}{\partial b}=\frac{\partial L_0}{\partial b}
∂w∂Lt=∂w∂L0+λw∂b∂Lt=∂b∂L0标准的随机梯度下降中,有:
w
←
w
−
η
(
∂
L
0
∂
w
+
λ
w
)
=
(
1
−
η
λ
)
w
−
η
∂
L
0
∂
w
w\leftarrow w-\eta(\frac{\partial L_0}{\partial w}+\lambda w)=(1-\eta\lambda)w-\eta\frac{\partial L_0}{\partial w}
w←w−η(∂w∂L0+λw)=(1−ηλ)w−η∂w∂L0同理,有:
b
←
b
−
η
∂
L
0
∂
b
b\leftarrow b - \eta\frac{\partial L_0}{\partial b}
b←b−η∂b∂L0令
η
λ
=
β
\eta\lambda=\beta
ηλ=β,可以得到
θ
t
←
(
1
−
β
)
θ
t
−
1
−
α
g
t
\theta_t \leftarrow(1-\beta)\theta_{t-1}-\alpha g_t
θt←(1−β)θt−1−αgt②
L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(即动量法和Adam算法),L2正则化会导致导致具有较大历史参数(和/或)梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。
EX
总结网络优化与正则化。