单样本:
在第l层,有参数w^[l],b^[l]
正向传播:
输入激活函数g^[l],a^[l-1],输出a^[l]
z^[l]=w^[l]a^[l-1]+b^[l] 存储z^[l],w^[l],b^[l](存储z^[l]的原因可以参考图2,在反向传播中会用到)
a^[l]=g^[l](z^[l])
反向传播:
输入da^[l],之前存储的z^[l],输出da[l-1],dw[l],db[l]
dz^[l]=da^[l]*g`^[l](z[l]) 这里的da^[l]解释如图3部分
dw^[l]=dz^[l]*a^[l-1]
db^[l]=dz^[l]
da^[l-1]=dz^[l]*w^[l]^T
参数(parameters):W^[1],W^[2],W^[3]...b^[1],b^[2],b^[3]...
超参数(hyparameters)控制着参数:学习率,隐藏单元数n^[1],梯度下降法循环的数量,隐层数(L),激活函数