深层神经网络
L表示层数
n
[
l
]
n^{[l]}
n[l]表示第l成的单元数量
a
[
l
]
a^{[l]}
a[l]表示第l层的激活函数
w
[
l
]
w^{[l]}
w[l]表示在
a
[
l
]
a^{[l]}
a[l]中计算
z
[
l
]
z^{[l]}
z[l]的权重
深层网络中的前向传播
核对矩阵的维数
矩阵的维数
w
[
l
]
:
(
n
[
l
]
,
n
[
l
−
1
]
)
w^{[l]}:(n^{[l]},n^{[l-1]})
w[l]:(n[l],n[l−1])
b
[
l
]
:
(
n
[
l
]
,
1
)
b^{[l]}:(n^{[l]},1)
b[l]:(n[l],1)
d
w
[
l
]
:
(
n
[
l
]
,
n
[
l
−
1
]
)
dw^{[l]}:(n^{[l]},n^{[l-1]})
dw[l]:(n[l],n[l−1])
d
b
[
l
]
:
(
n
[
l
]
,
n
[
l
−
1
]
)
db^{[l]}:(n^{[l]},n^{[l-1]})
db[l]:(n[l],n[l−1])
z
[
l
]
:
(
n
[
l
]
,
1
)
z^{[l]}:(n^{[l]},1)
z[l]:(n[l],1)
为什么使用深层表示
对于人脸识别,第一层可以当做一个边缘检测器,第二层可以将探测到的边缘组合成面部的不同部分,最后将这些不同的部分组合起来,就可以识别或者检测不同的人脸
上图可以看出深层神经网络比单层神经网络所需要的隐藏单元要少的多
搭建深层神经网络块
单层的前向传播和反向传播过程
深层神经网络的前向传播和反向传播过程
前向和反向传播
前向传播及其向量化
反向传播及其向量化