神经网络与深度学习作业12:第七章课后题
习题7-1在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.
在小批量梯度下降中有:
g
t
(
θ
)
=
1
K
∑
(
x
,
y
)
ϵ
S
t
∂
L
(
y
,
f
(
x
;
θ
)
)
∂
θ
g_t(θ) = \frac{1}{K}\sum_{(x,y)\epsilon S_t}^{}\frac{\partial L(y,f(x;\theta ))}{\partial \theta }
gt(θ)=K1(x,y)ϵSt∑∂θ∂L(y,f(x;θ))
θ
t
=
θ
t
−
1
−
α
g
t
θ_t = θ_{t-1} - αg_t
θt=θt−1−αgt
其中
g
t
=
δ
K
g_t = \frac{\delta }{K}
gt=Kδ,则有:
θ
t
=
θ
t
−
1
−
δ
K
α
θ_t = θ_{t-1} - \frac{\delta }{K}α
θt=θt−1−Kδα
因此我们要使得参数最优,则
α
K
\frac{\alpha}{K}
Kα 为最优的时候的常数,故学习率要和批量大小成正比。
习题7-2在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28)).
在Adam算法中:
M
t
=
β
1
M
t
−
1
+
(
1
−
β
1
)
g
t
M_t = β_1M_{t-1} + (1-β_1)g_t
Mt=β1Mt−1+(1−β1)gt
G
t
=
β
2
G
t
−
1
+
(
1
−
β
2
)
⨀
g
t
G_t = β_2G_{t-1} + (1-β_2)\bigodot g_t
Gt=β2Gt−1+(1−β2)⨀gt
当
β
1
→
1
,
β
2
→
1
β_1 \rightarrow 1,β_2 \rightarrow 1
β1→1,β2→1的时候时:
lim
β
1
→
1
M
t
=
M
t
−
1
\lim_{\beta _1\rightarrow 1}M_t = M_{t-1}
β1→1limMt=Mt−1
lim
β
2
→
1
G
t
=
G
t
−
1
\lim_{\beta _2\rightarrow 1}G_t = G_{t-1}
β2→1limGt=Gt−1
因此可以发现此时梯度消失,因此指数加权平均需要进行偏差修正。
习题7-9证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立.
证明:
设
L
t
L_t
Lt为第
t
t
t步的损失函数,有
L
t
=
L
0
+
λ
2
∣
∣
w
∣
∣
2
L_t = L_0 + \frac{λ}{2}||w||^2
Lt=L0+2λ∣∣w∣∣2(
l
2
l_2
l2正则化)。
求导:
∂
L
t
∂
w
=
∂
L
0
∂
w
+
λ
w
\frac{\partial L_t}{\partial w} = \frac{\partial L_0}{\partial w} + λw
∂w∂Lt=∂w∂L0+λw
∂
L
t
∂
b
=
∂
L
0
∂
b
\frac{\partial L_t}{\partial b} = \frac{\partial L_0}{\partial b}
∂b∂Lt=∂b∂L0
标准的随机梯度下降:
w
←
w
−
η
(
∂
L
0
∂
w
+
λ
w
)
=
(
1
−
η
λ
)
w
−
η
∂
L
0
∂
w
w \leftarrow w - \eta( \frac{\partial L_0}{\partial w} + λw)=(1-\eta λ)w - \eta\frac{\partial L_0}{\partial w}
w←w−η(∂w∂L0+λw)=(1−ηλ)w−η∂w∂L0
同理有:
b
←
b
−
η
∂
L
0
∂
b
b \leftarrow b - \eta\frac{\partial L_0}{\partial b}
b←b−η∂b∂L0
我们令
η
λ
=
β
\etaλ = β
ηλ=β,就可以推出:
θ
t
←
(
1
−
β
)
θ
t
−
1
−
α
g
t
θ_t \leftarrow (1-β)θ_{t-1} - αg_t
θt←(1−β)θt−1−αgt
分析这一结论在动量法和 Adam算法中是否依然成立.
L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。
当与自适应梯度相结合时(动量法和Adam算法),
L2正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。
全面总结网络优化
总结
通过此次对于课后习题的回答,感觉收获很大,最后也画了思维导图,对于本章的结构体系更加清楚(思维导图还是挺有用的)然后就是尝试着读了一个英文的论文,发现读不懂,勉勉强强读完了几页,对于存在的、不懂得问题也查了一些,总体来说这次作业还是收获很大的。
References:
英文论文(感兴趣的可以看一看,前半部分我看着写的很棒):
DECOUPLED WEIGHT DECAY REGULARIZATION
深度学习系列四——优化篇之网络正则化
老师博客:
NNDL 作业12:第七章课后题