在掌握了浅层神经网络算法后,对深度神经网络进行学习。
1. 原理推导
1.1 深度神经网络表示
定义:L表示神经网络总层数,上标[l]代表第l层网络,n[l]代表第l层的节点数,a[l]代表第l层的激活,W[l]和b[l]为第l层的参数。输入层为第0层a[0] = x,输出层为第L层a[L]。
1.2 正向传播(Forward Propagation)
类似浅层神经网络的推导可以得到,对于第l层,针对单个样本,正向传播可以表示为:
z[l]=W[l]a[l−1]+b[l],a[l]=g[l](z[l])(1)
式中,g[l](z[l])为第l层的激活函数,且a[0] = x。针对m个样本,以上标(m)表示第m个样本,将上式改写为:
Z[l]=W[l]A[l−1]+b[l],A[l]=g[l](Z[l])(2)
式中,A[0] = X,
Z[l]=⎡⎣⎢|z[l](1)||z[l](2)||⋯||z[l](m)|⎤⎦⎥,A[l]=⎡⎣⎢|a[l](1)||a[l](2)||⋯||a[l](m)<