深层网络中的前向传播(Forward propagation in a Deep Network)
跟往常一样,我们先来看对其中一个训练样本x如何应用前向传播,之后讨论向量化的版本。
第一层需要计算z([1])=w([1]) x+b([1]),a([1])=g^([1]) (z([1]))(x可以看做a([0]))
第二层需要计算z([2])=w([2]) a([1])+b([2]),a([2])=g([2]) (z^([2]))
以此类推,
第四层为z([4])=w([4]) a([3])+b([4]),a([4])=g([4]) (z^([4]))
前向传播可以归纳为多次迭代z([l])=w([l]) a([l-1])+b([l]),a([l])=g([l]) (z^([l]))。
向量化实现过程可以写成:
Z([l])=W([l]) a([l-1])+b([l]),A([l])=g([l]) (Z^([l])) (A^([0])=X)
这里只能用一个显式for循环,l从1到L,然后一层接着一层去计算。
核对矩阵的维数(Getting your matrix dimensions right)
当实现深度神经网络的时候,其中一个我常用的检查代码是否有错的方法就是拿出一张纸过一遍算法中矩阵的维数。这是避免代码产生BUG,所做的其中一件非常重要的工作。
w的维度是(下一层的维数,前一层的维数),即w^([l]): (n([l]),n([l-1]));
b的维度是(下一层的维数,1),即:
b^([l]) : (n^([l]),1);
z([l]),a([l]): (n^([l]),1);
〖dw〗([l])和w([l])维度相同,〖db〗([l])和b([l])维度相同,且w和b向量化维度不变,但z,a以及x的维度会向量化后发生变化。
向量化后:
Z([l])可以看成由每一个单独的Z([l])叠加而得到,Z([l])=(z([l][1]),z([l][2]),z([l][3]),…,z^([l][m])),
m为训练集大小,所以Z([l])的维度不再是(n([l]),1),而是(n^([l]),m)。
A([l]):(n([l]),m),A([0])=X=(n([l]),m)
在你做深度神经网络的反向传播时,一定要确认所有的矩阵维数是前后一致的,可以大大提高代码通过率。