该文档将以含有两个隐藏层的神经网络为基础进行正向和反向的公式推导,因为一个隐藏层的网络太简单,多个隐藏层与两个隐藏层在推导上没有本质区别,所以综合平衡知识性与文档撰写的便捷性,两个隐藏层比较合适。
整个文档主要包含以下内容或者特点:
- 符号表示要足够清晰
- 中间步骤尽量详细
- 把batch_size引入进来
- 以向量化的方式推导
- 使用两个Loss:L2和Cross Entropy Loss
该文档与以下两个文档配合看更易理解:
与该对应的代码实现: MNIST攻略:原始数据解析和基于numpy的全连接网络实现
代码实现中用到的loss公式: Softmax以及Cross Entropy Loss求导
符号表示
全连接神经网络的正反传都不难,但是一定要有清晰的,好的符号表示系统,否则容易出错。有些符号可能开始不易被理解,但是结合图例和公式推导过程,后面慢慢应该就会感受到其中的用处。
推导过程中要特别注意矩阵的shape,因为矩阵乘法占据了绝大部分的运算,所以搞清楚矩阵乘法对shape的要求,即前矩阵的第二个维度应等于后矩阵的第一个维度,就可以有效地避免犯错。
- 第 l l l 层的节点数用 n l n_l nl 表示;
- z i [ l ] z^{[l]}_i zi[l] 表示第 l l l 层第 i i i 个节点的值, z [ l ] z^{[l]} z[l] 的shape为 ( b , n l ) (b,\ n_l) (b, nl),其中 b b b 表示batch_size;
- a i [ l ] a^{[l]}_i ai[l] 表示与 z i [ l ] z^{[l]}_i zi[l] 对应的激活值,激活函数记为 f ( z ) f(z) f(z) 其导数记为 f ′ ( z ) f^{'}(z) f′(z) ,其shape与 z i [ l ] z^{[l]}_i zi[l] 相同;输入用 a a a 表示,整个公式流程会更统一;
- w [ l ] , b [ l ] w^{[l]}, \ b^{[l]} w[l], b[l] 表示第 l l l 层的weight和bias, w [ l ] w^{[l]} w[l] 的shape为 ( n l − 1 , n l ) (n_{l-1},\ n_l) (nl−1, nl), b [ l ] b^{[l]} b[l] 的shape为 ( 1 , n l ) (1,\ n_l) (1, nl);
- 以 x x x 表示任意变量,包括 z , a , w , b z, a, w, b z,a,w,b 等,那么 d x dx dx 表示该变量的梯度,shape与 x x x 相同,计算公式为 d x = ∂ L o s s / ∂ x dx = \partial Loss / \partial x dx=∂Loss/∂x
根据上述符号表示方法(主要是看shape的对应关系),用于全连接的线性运算应当写为: a [ l − 1 ] ∗ w [ l ] + b [ l ] a^{[l-1]} \ * w^{[l]} \ + b^{[l]} a[l−1] ∗w[l] +b[l] ,可以看到是 a a a 在前 w w w 在后,而不是我们熟悉的 w w w 在前 a a a 在后。这种表示至少有以下两方面好处:
- 公式与结构图的对应更加顺滑,因为在图中, a [ l − 1 ] a^{[l-1]} a[l−1] 的位置在 w [ l ] w^{[l]} w[l] 的前面;
- 可以把batch_size放在第一个维度,这也是各个深度学习框架的通用做法。
公式推导
虽然前面我们讲了要推导两个Loss,但是看完反向过程就会知道,我们并不用针对每一个Loss都重写一遍推导流程,只需要在反向传播的初期把相应的Loss梯度公式带进去即可。
前向过程
请注意,虽然下面的前向公式里写了Loss,但实际上只有Loss的梯度参与反向过程,Loss本身不参与计算,写下来以示敬意而已。
z
[
1
]
=
a
[
0
]
∗
w
[
1
]
+
b
[
1
]
a
[
1
]
=
f
(
z
[
1
]
)
z
[
2
]
=
a
[
1
]
∗
w
[
2
]
+
b
[
2
]
a
[
2
]
=
f
(
z
[
2
]
)
z
[
3
]
=
a
[
2
]
∗
w
[
3
]
+
b
[
3
]
L
o
s
s
=
L
(
z
[
3
]
,
y
)
\begin{aligned} z^{[1]} &= a^{[0]}*w^{[1]} + b^{[1]} \\[2ex] a^{[1]} &= f(z^{[1]}) \\[2ex] z^{[2]} &= a^{[1]}*w^{[2]} + b^{[2]} \\[2ex] a^{[2]} &= f(z^{[2]}) \\[2ex] z^{[3]} &= a^{[2]}*w^{[3]} + b^{[3]} \\[2ex] Loss &= L(z^{[3]}, y) \end{aligned}
z[1]a[1]z[2]a[2]z[3]Loss=a[0]∗w[1]+b[1]=f(z[1])=a[1]∗w[2]+b[2]=f(z[2])=a[2]∗w[3]+b[3]=L(z[3],y)
反向过程
反向过程要详细写,
d
z
[
3
]
dz^{[3]}
dz[3] 暂时不写具体表达式,针对不同的Loss,将其带入即可。
x
T
x^T
xT 表示变量
x
x
x 的转置。
乘法表示:两个变量中间为点表示矩阵乘法;
m
u
l
t
i
p
l
y
(
x
,
y
)
multiply(x,y)
multiply(x,y) 表示element-wise乘法;
m
e
a
n
(
x
,
a
x
i
s
=
0
)
mean(x, axis=0)
mean(x,axis=0)表示对
x
x
x 在axis=0的维度上做平均。
从下面推导过程体现出以下特点:
- 传递性:在链式法则的作用下,每一个变量的梯度仅跟上一层变量的梯度有关,与更早的梯度无关(当然,本质上是有关的,但是由于传递性的存在,从计算公式上来看是无关的),其他参与计算的都是正向过程中缓存下来的变量。
- z [ l ] z^{[l]} z[l] 在反向过程中不需要用到,虽然 m u l t i p l y ( ) multiply() multiply()函数中用到了 f ′ ( z [ l ] ) f^{'}(z^{[l]}) f′(z[l]),但是现在常用的激活函数的导数如sigmoid和relu等都不包含 z [ l ] z^{[l]} z[l] 本身。这就意味着, z [ l ] z^{[l]} z[l] 仅在前向过程中用一下就好了,因此前向过程中激活函数可以做原位运算(in-place),即 a [ l ] a^{[l]} a[l] 和 z [ l ] z^{[l]} z[l] 可以使用同一个变量,这样可以节省一些显存。但是为了清晰起见,我们不使用原位运算的方式做公式推导。
d
z
[
3
]
=
∂
L
o
s
s
∂
z
[
3
]
d
w
[
3
]
=
∂
L
o
s
s
∂
w
[
3
]
=
∂
L
o
s
s
∂
z
[
3
]
⋅
∂
d
z
[
3
]
∂
d
w
[
3
]
=
a
[
2
]
T
⋅
d
z
[
3
]
d
b
[
3
]
=
∂
L
o
s
s
∂
b
[
3
]
=
∂
L
o
s
s
∂
z
[
3
]
⋅
∂
d
z
[
3
]
∂
d
b
[
3
]
=
m
e
a
n
(
d
z
[
3
]
,
a
x
i
s
=
0
)
d
a
[
2
]
=
∂
L
o
s
s
∂
a
[
2
]
=
∂
L
o
s
s
∂
z
[
3
]
⋅
∂
d
z
[
3
]
∂
d
a
[
2
]
=
d
z
[
3
]
⋅
w
[
3
]
T
d
z
[
2
]
=
∂
L
o
s
s
∂
z
[
2
]
=
∂
L
o
s
s
∂
a
[
2
]
⋅
∂
d
a
[
2
]
∂
d
z
[
2
]
=
m
u
l
t
i
p
l
y
(
d
a
[
2
]
,
f
′
(
z
[
2
]
)
)
d
w
[
2
]
=
∂
L
o
s
s
∂
w
[
2
]
=
∂
L
o
s
s
∂
z
[
2
]
⋅
∂
d
z
[
2
]
∂
d
w
[
2
]
=
a
[
1
]
T
⋅
d
z
[
2
]
d
b
[
2
]
=
∂
L
o
s
s
∂
b
[
2
]
=
∂
L
o
s
s
∂
z
[
2
]
⋅
∂
d
z
[
2
]
∂
d
b
[
2
]
=
m
e
a
n
(
d
z
[
2
]
,
a
x
i
s
=
0
)
d
a
[
1
]
=
∂
L
o
s
s
∂
a
[
1
]
=
∂
L
o
s
s
∂
z
[
2
]
⋅
∂
d
z
[
2
]
∂
d
a
[
1
]
=
d
z
[
2
]
⋅
w
[
2
]
T
d
z
[
1
]
=
∂
L
o
s
s
∂
z
[
1
]
=
∂
L
o
s
s
∂
a
[
1
]
⋅
∂
d
a
[
1
]
∂
d
z
[
1
]
=
m
u
l
t
i
p
l
y
(
d
a
[
1
]
,
f
′
(
z
[
1
]
)
)
d
w
[
1
]
=
∂
L
o
s
s
∂
w
[
1
]
=
∂
L
o
s
s
∂
z
[
1
]
⋅
∂
d
z
[
1
]
∂
d
w
[
1
]
=
a
[
0
]
T
⋅
d
z
[
1
]
d
b
[
1
]
=
∂
L
o
s
s
∂
b
[
1
]
=
∂
L
o
s
s
∂
z
[
1
]
⋅
∂
d
z
[
1
]
∂
d
b
[
1
]
=
m
e
a
n
(
d
z
[
1
]
,
a
x
i
s
=
0
)
\begin{aligned} dz^{[3]} &= \cfrac {\partial Loss} {\partial z^{[3]}} \\[2ex] dw^{[3]} &= \cfrac {\partial Loss} {\partial w^{[3]}} = \cfrac {\partial Loss} {\partial z^{[3]}} \cdot \cfrac {\partial dz^{[3]}} {\partial dw^{[3]}} = a^{[2]T} \cdot dz^{[3]} \\[2ex] db^{[3]} &= \cfrac {\partial Loss} {\partial b^{[3]}} = \cfrac {\partial Loss} {\partial z^{[3]}} \cdot \cfrac {\partial dz^{[3]}} {\partial db^{[3]}} = mean(dz^{[3]},\ axis=0) \\[2ex] da^{[2]} &= \cfrac {\partial Loss} {\partial a^{[2]}} = \cfrac {\partial Loss} {\partial z^{[3]}} \cdot \cfrac {\partial dz^{[3]}} {\partial da^{[2]}} = dz^{[3]} \cdot w^{[3]T} \\[2ex] dz^{[2]} &= \cfrac {\partial Loss} {\partial z^{[2]}} = \cfrac {\partial Loss} {\partial a^{[2]}} \cdot \cfrac {\partial da^{[2]}} {\partial dz^{[2]}} = multiply(da^{[2]}, \ f^{'}(z^{[2]})) \\[2ex] dw^{[2]} &= \cfrac {\partial Loss} {\partial w^{[2]}} = \cfrac {\partial Loss} {\partial z^{[2]}} \cdot \cfrac {\partial dz^{[2]}} {\partial dw^{[2]}} = a^{[1]T} \cdot dz^{[2]} \\[2ex] db^{[2]} &= \cfrac {\partial Loss} {\partial b^{[2]}} = \cfrac {\partial Loss} {\partial z^{[2]}} \cdot \cfrac {\partial dz^{[2]}} {\partial db^{[2]}} = mean(dz^{[2]},\ axis=0) \\[2ex] da^{[1]} &= \cfrac {\partial Loss} {\partial a^{[1]}} = \cfrac {\partial Loss} {\partial z^{[2]}} \cdot \cfrac {\partial dz^{[2]}} {\partial da^{[1]}} = dz^{[2]} \cdot w^{[2]T} \\[2ex] dz^{[1]} &= \cfrac {\partial Loss} {\partial z^{[1]}} = \cfrac {\partial Loss} {\partial a^{[1]}} \cdot \cfrac {\partial da^{[1]}} {\partial dz^{[1]}} = multiply(da^{[1]}, \ f^{'}(z^{[1]})) \\[2ex] dw^{[1]} &= \cfrac {\partial Loss} {\partial w^{[1]}} = \cfrac {\partial Loss} {\partial z^{[1]}} \cdot \cfrac {\partial dz^{[1]}} {\partial dw^{[1]}} = a^{[0]T} \cdot dz^{[1]} \\[2ex] db^{[1]} &= \cfrac {\partial Loss} {\partial b^{[1]}} = \cfrac {\partial Loss} {\partial z^{[1]}} \cdot \cfrac {\partial dz^{[1]}} {\partial db^{[1]}} = mean(dz^{[1]},\ axis=0) \end{aligned}
dz[3]dw[3]db[3]da[2]dz[2]dw[2]db[2]da[1]dz[1]dw[1]db[1]=∂z[3]∂Loss=∂w[3]∂Loss=∂z[3]∂Loss⋅∂dw[3]∂dz[3]=a[2]T⋅dz[3]=∂b[3]∂Loss=∂z[3]∂Loss⋅∂db[3]∂dz[3]=mean(dz[3], axis=0)=∂a[2]∂Loss=∂z[3]∂Loss⋅∂da[2]∂dz[3]=dz[3]⋅w[3]T=∂z[2]∂Loss=∂a[2]∂Loss⋅∂dz[2]∂da[2]=multiply(da[2], f′(z[2]))=∂w[2]∂Loss=∂z[2]∂Loss⋅∂dw[2]∂dz[2]=a[1]T⋅dz[2]=∂b[2]∂Loss=∂z[2]∂Loss⋅∂db[2]∂dz[2]=mean(dz[2], axis=0)=∂a[1]∂Loss=∂z[2]∂Loss⋅∂da[1]∂dz[2]=dz[2]⋅w[2]T=∂z[1]∂Loss=∂a[1]∂Loss⋅∂dz[1]∂da[1]=multiply(da[1], f′(z[1]))=∂w[1]∂Loss=∂z[1]∂Loss⋅∂dw[1]∂dz[1]=a[0]T⋅dz[1]=∂b[1]∂Loss=∂z[1]∂Loss⋅∂db[1]∂dz[1]=mean(dz[1], axis=0)
下面是反向过程中所有变量的shape,带
d
d
d 和不带
d
d
d 的shape一样,因为现在是反向过程,所以不带
d
d
d 的变量就不再写了。配合等式左右两边变量的shape来看反向过程更易理解,特别是矩阵乘法中变量的前后顺序的确定。
d
z
[
3
]
=
(
b
,
n
3
)
d
a
[
2
]
=
d
z
[
2
]
=
(
b
,
n
2
)
d
a
[
1
]
=
d
z
[
1
]
=
(
b
,
n
1
)
d
a
[
0
]
=
(
b
,
n
0
)
d
w
[
3
]
=
(
n
2
,
n
3
)
d
w
[
2
]
=
(
n
1
,
n
2
)
d
w
[
1
]
=
(
n
0
,
n
1
)
d
b
[
3
]
=
(
1
,
n
3
)
d
b
[
2
]
=
(
1
,
n
2
)
d
b
[
1
]
=
(
1
,
n
1
)
\begin{aligned} dz^{[3]} &= (b,n_3) \\[1ex] da^{[2]} = dz^{[2]} &= (b,n_2) \\[1ex] da^{[1]} = dz^{[1]} &= (b,n_1) \\[1ex] da^{[0]} &= (b,n_0) \\[1ex] \\[1ex] dw^{[3]} &= (n_2,n_3) \\[1ex] dw^{[2]} &= (n_1,n_2) \\[1ex] dw^{[1]} &= (n_0,n_1) \\[1ex] db^{[3]} &= (1,n_3) \\[1ex] db^{[2]} &= (1,n_2) \\[1ex] db^{[1]} &= (1,n_1) \\[1ex] \\[1ex] \end{aligned}
dz[3]da[2]=dz[2]da[1]=dz[1]da[0]dw[3]dw[2]dw[1]db[3]db[2]db[1]=(b,n3)=(b,n2)=(b,n1)=(b,n0)=(n2,n3)=(n1,n2)=(n0,n1)=(1,n3)=(1,n2)=(1,n1)
梯度更新
仅需要更新网络参数,即weight和bias,
α
\alpha
α 表示学习率。
f
o
r
a
l
l
l
:
w
[
l
]
=
w
[
l
]
−
α
⋅
d
w
[
l
]
b
[
l
]
=
b
[
l
]
−
α
⋅
d
b
[
l
]
\begin{aligned} for \ &all \ \ l: \\[1ex] w^{[l]} &= w^{[l]} - \alpha \cdot dw^{[l]} \\[1ex] b^{[l]} &= b^{[l]} - \alpha \cdot db^{[l]} \\ \end{aligned}
for w[l]b[l]all l:=w[l]−α⋅dw[l]=b[l]−α⋅db[l]
Loss层的梯度
L2 Loss的梯度比较容易理解。Cross Entropy Loss的梯度推导可以参考另一篇文档《Softmax以及Cross Entropy Loss求导》。
一般来讲L2 Loss多用于回归任务,而Cross Entropy Loss多用于分类任务。
L2 Loss
L o s s ( z [ 3 ] , y ) = 0.5 ∗ ( z [ 3 ] − y ) 2 d z [ 3 ] = ∂ L o s s ∂ z [ 3 ] = z [ 3 ] − y \begin{aligned} Loss(z^{[3]},\ y) &= 0.5 * (z^{[3]} - y)^2 \\[2ex] dz^{[3]} &= \cfrac {\partial Loss} {\partial z^{[3]}} = z^{[3]} - y \end{aligned} Loss(z[3], y)dz[3]=0.5∗(z[3]−y)2=∂z[3]∂Loss=z[3]−y
Cross Entropy Loss
这部分可参考:
Softmax以及Cross Entropy Loss求导
S
o
f
t
m
a
x
(
z
i
[
3
]
)
=
S
(
z
i
[
3
]
)
=
e
z
i
[
3
]
∑
k
e
z
k
[
3
]
L
o
s
s
(
z
[
3
]
,
y
)
=
−
∑
k
y
k
⋅
l
n
S
(
z
k
[
3
]
)
d
z
[
3
]
=
∂
L
o
s
s
∂
z
[
3
]
=
S
(
z
[
3
]
)
−
y
\begin{aligned} Softmax(z^{[3]}_i) &= S(z^{[3]}_i)=\cfrac{e^{z^{[3]}_i}}{\sum_k {e^{z^{[3]}_k}}} \\[2ex] Loss(z^{[3]},\ y) &= -\sum_k {y_k \cdot lnS(z^{[3]}_k)} \\[2ex] dz^{[3]} &= \cfrac {\partial Loss} {\partial z^{[3]}} = S(z^{[3]}) - y \end{aligned}
Softmax(zi[3])Loss(z[3], y)dz[3]=S(zi[3])=∑kezk[3]ezi[3]=−k∑yk⋅lnS(zk[3])=∂z[3]∂Loss=S(z[3])−y
注意,Cross Entropy Loss的梯度看起来与L2 Loss的梯度有点像,但其实差别还是挺大的,Cross Entropy Loss的 z [ 3 ] z^{[3]} z[3] 外面还包了个Softmax,另外因为针对任务的不同,两个Loss的标签 y y y 一般也不太一样。