第三课:浅层神经网络(Shallow neural networks)
3.1 神经网络概述
PASS
3.2 神经网络的表示
如上图,从左到右依次为输入层、隐藏层、只有一个节点的层为输出层,负责输出预测值。
一般称上图网络为两层神经网络,一般不把输入层看做一个标准层,因此该网络有一个隐藏层和输出层。
在隐藏层有两个参数 W W W和 b b b,通常表示为 W [ 1 ] , b [ 1 ] W^{[1]},b^{[1]} W[1],b[1], W W W为 4 ∗ 3 4*3 4∗3矩阵, b b b为 4 ∗ 1 4*1 4∗1矩阵, 4 4 4来自于有四个节点或者隐藏层单元, 3 3 3表示有三个特征输入。同理我们得到输出层参数 W [ 2 ] , b [ 2 ] W^{[2]},b^{[2]} W[2],b[2],他们分别是 1 ∗ 4 1*4 1∗4和 1 ∗ 1 1*1 1∗1维度矩阵。
3.3 计算一个神经网络的输出
如上图,对于一个训练样本,根据给出一个单独的输入特征向量,根据上限四个公式,进而计算出一个简单神经网络的输出。
3.4 多样本向量化
a [ 2 ] ( i ) a^{[2](i)} a[2](i)对于上面的网络表示的是第 i i i个训练样本的第二层输出值。
若要实现所有样本,可以使用循环方法来对上面式子进行循环,要注意所有样本要加上 ( i ) (i) (i),比如 z [ 1 ] ( i ) z^{[1](i)} z[1](i),其他也一样,加上上标 ( i ) (i) (i),如下图.
然而通常使用向量化方法:
上图中的 X , Z [ 1 ] , A [ 1 ] X,Z^{[1]},A^{[1]} X,Z[1],A[1]矩阵水平方向上代表了不同的训练样本,从竖直方向上代表了不同的隐藏单元(不同的输入特征),将训练样本横向堆叠成一个矩阵X。
向量化方法如下:
Z [ 1 ] = W [ 1 ] X + b [ 1 ] A [ 1 ] = σ ( Z [ 1 ] )