此次主要学习了在搭建一个深层神经网络模块时,需要注意到哪些内容,本文将通过下图进行说明:
上图描述的是一个深层神经网络模型正向和反向传播的过程。每一个方框代表着一个隐藏层。
从图中得出,有几处要点需要注意:
(1)正向传播过程中,需要将每一层的
z
[
l
]
、
w
[
l
]
、
b
[
l
]
z^{[l]}、w^{[l]}、b^{[l]}
z[l]、w[l]、b[l]进行缓存,方便反向传播时使用(尤其是在编写代码时须注意)。
(2)正向传播是由
a
[
0
]
a^{[0]}
a[0]得到
a
[
l
]
a^{[l]}
a[l]的过程,反向传播是由
d
a
[
l
]
da^{[l]}
da[l]得到
d
a
[
1
]
da^{[1]}
da[1]的过程。
(3)反向传播中,每一个层会输出
d
w
[
l
]
、
d
b
[
l
]
dw^{[l]}、db^{[l]}
dw[l]、db[l],用于梯度下降,即更新参数。
具体的公式表达形式如下图所示:
什么是超参数?
超参数是指能影响
w
、
b
w、b
w、b的参数,如:学习率:
α
\alpha
α、隐藏层数:L、隐藏单元数:
n
[
l
]
n^{[l]}
n[l]等等超参数决定了最终得到的参数
w
、
b
w、b
w、b。因此,可以这样说,超参数是一种用于控制参数的参数。
在实际的神经网络学习中,超参数的选择有许多的可能性,所以需要尝试许多不同的值。