如下图,这是一个层数较少的神经网络,我们选择其中一层,从第二层隐藏层的计算着手,在第l层有参数
W
l
[
]
W^{l[]}
Wl[]和
b
[
l
]
b^{[l]}
b[l],正向传播里有输入的激活函数,输入的前一层是
a
[
l
−
1
]
a^{[l-1]}
a[l−1],输出是
a
[
l
]
a^{[l]}
a[l]。
z
[
l
]
=
W
[
l
]
a
[
l
−
1
]
+
b
z^{[l]}=W^{[l]}a^{[l-1]}+b
z[l]=W[l]a[l−1]+b,
a
[
l
]
=
g
[
l
]
(
z
[
l
]
)
a^{[l]}=g^{[l]}(z^{[l]})
a[l]=g[l](z[l]),这就是如何从输入
a
[
l
−
1
]
a^{[l-1]}
a[l−1]到输出的。
之后就可以把
z
[
l
]
z^{[l]}
z[l]的值缓存起来,因为缓存的
z
[
l
]
z^{[l]}
z[l]对以后的正向和反向传播的步骤非常有用。
在反向传播步骤,同样也是第 l l l层的计算,你会需要实现一个函数,输入为 d a [ l ] da^{[l]} da[l],输出为 d a [ l − 1 ] da^{[l-1]} da[l−1]。一个小细节需要注意,输入在这里其实是 d a [ l ] da^{[l]} da[l]和缓存的 z [ l ] z^{[l]} z[l]值。输出除了 d a [ l − 1 ] da^{[l-1]} da[l−1]外,还有 d w [ l ] dw^{[l]} dw[l]和 d b [ l ] db^{[l]} db[l]。
总结起来就是,在第 l l l层会有正向函数,输入 a [ l − 1 ] a^{[l-1]} a[l−1]并且输出 a [ l ] a^{[l]} a[l]。为了计算结果,还需要参数 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l],以及输出到缓存的 z [ l ] z^{[l]} z[l]。
然后用作反向传播的反向函数是另外一个函数,输入 d a [ l ] da^{[l]} da[l]输出 d a [ l − 1 ] da^{[l-1]} da[l−1],这会得到对激活函数的导数,计算过程需要 W [ l ] W^{[l]} W[l]和 b [ l ] b^{[l]} b[l]和 d z [ l ] dz^{[l]} dz[l],可以计算输出 d W [ l ] dW^{[l]} dW[l]和 d b [ l ] db^{[l]} db[l]。