深层神经网络前馈 && 反向传播

最新推荐文章于 2024-07-28 03:59:40 发布

置顶 soullines

最新推荐文章于 2024-07-28 03:59:40 发布

阅读量730

点赞数 1

分类专栏： Machine Learning & Algorithm 文章标签：神经网络前向反馈

本文链接：https://blog.csdn.net/soullines/article/details/98890409

版权

Machine Learning & Algorithm 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

学习深度学习,深层神经网络是一个绕不过的话题,包括其前向以及反向的计算过程是很有必要搞清楚,这样对于之后的调参,以及梯度消失 & 爆炸的处理会很有帮助;

所以立足于此,尽可能详细的阐述其前向 & 后向的计算过程:

1.为什么使用深层神经网络
 2.深层神经网络的前向 & 反向计算过程详解

1.为什么使用深层神经网络

1.1 神经网络

神经网络,顾名思义就是模拟大脑皮层,从感知信息,传递,再到激活然后输出的一个个神经元构成的网络模型,在此过程中,低阶神经网络构成低阶网络层,中阶神经元构成的中阶网络层,一次类推,一层一层网络层前向传递,知道输出预测值;同时从输出开始,反向微分一步步调节网络;

神经网络由输入层 ,隐藏层,输出层组成

输入层: 就是训练数据的入口
隐藏层: 一级一级抽象特征的网络层
输出层: 网络预测值的输出口

使用深层神经网络的目的

在实际的应用中,我们会使用多层的神经网络(主要指多个隐藏层)来进行模型训练,这样做的目的就是捕捉细粒度的特征

用一个大家比较熟悉的例子:一张人脸图片做卷积(conv代表卷积层(也是隐藏层),这里以卷积神经网络来阐述):

conv1:进行边缘抽象,如圆角,直线等基础抽象
conv2:基于conv1进行连接,抽象出鼻子,眼镜,嘴巴等基础五官
conv3:基于conv2进行组合,抽象出人脸

到此为止我们可以认为,人脸识别模型构建完毕,的确,基于上面的简单例子可以看出,隐藏层的作用就是对特征进行低阶—>高阶的抽象过程,网络层越多,抽象的粒度也就越细,这就是使用深层神经网络的目的

2.深层神经网络的前向 & 反向计算过程

神经网络训练模型分为前向和反向传播的过程:

前向传递:可以认为就是求解预测值的过程,这样便可以在迭代训练过程中求出成本函数
反向传播:其实要比前向传递耗时许多,根据前向传递的出成本函数,然后梯度下降来更新每一层的参数,这是训练模型的关键

这里我盗用Andrew Ng的一张图来进行求解过程:

在这里插入图片描述
这里我们来规定几个定义,方便一会儿计算的过程:

数据为横向堆叠矩阵,即每一列是单个特征向量, $e g$ :输入就是{ $x_1,x_2,...x_m$ }
$l$ 代表层数, $n^{[l]}$ 代表每一层的节点数
每一层的激活函数我们用 $g$ 来表示,则有这样的计算过程: $Z^{[l]}=W^{[l]}A^{[l-1]} + b^{[l]}\;\;$ $A^{[l]} = g(Z^{[l]})\;\;$
$n^{l}$ 是每一层的节点数, $W^{[l]}$ 是每一层的参数, $b^{[l]}$ 是每一层的偏移量, $m$ 是批量中的个数
我们规定输入层是第0层,节点数为 $n^{[0]}$ ,其输入数据为 $A^{[0]}$ ;以此类推… $n^{[1]},n^{[2]},...$

2.1 前向过程(依照上图来计算,计算4层)

计算第一个隐藏层

$Z^{[1]} = W^{[1]}A^{[0]} + b^{[1]} \;\;\;\; A^{[1]} = g(Z^{[1]})$
$A^{[0]}$ 就是输入的数据集,即m个{ $x_1,x_2,x_3,x_4$ }的横向堆叠,所以:

$W^{[1]}-(n^{[1]},n^{[0]})\;\;\;A^{[0]} -(n^{[0]},m)\;\;\;b^{[1]}-(n^{[1]},1)$ 这里b由于python的广播机制,在做+运算时候会自动扩展为m个b向量,这里我们可以认为b的维度是 $n^{[1]},m)$
计算之后 $Z^{[1]}-(n^{[1]},m)\;\;\;A^{[1]}-(n^{[1]},m)$

计算第二个隐藏层

$Z^{[2]} = W^{[2]}A^{[1]} + b^{[2]} \;\;\;\; A^{[2]} = g(Z^{[2]})$

$W^{[2]}-(n^{[2]},n^{[1]})\;\;\;A^{[1]} -(n^{[1]},m)\;\;\;b^{[2]}-(n^{[2]},1)$
计算之后 $Z^{[2]}-(n^{[2]},m)\;\;\;A^{[2]}-(n^{[2]},m)$

计算第三个隐藏层

$Z^{[3]} = W^{[3]}A^{[2]} + b^{[3]} \;\;\;\; A^{[3]} = g(Z^{[3]})$

$W^{[3]}-(n^{[3]},n^{[2]})\;\;\;A^{[2]} -(n^{[2]},m)\;\;\;b^{[3]}-(n^{[3]},1)$
计算之后 $Z^{[3]}-(n^{[3]},m)\;\;\;A^{[3]}-(n^{[3]},m)$

输出层

$Z^{[4]} = W^{[4]}A^{[3]} + b^{[4]} \;\;\;\; A^{[4]} = g(Z^{[4]})$

$W^{[4]}-(n^{[4]},n^{[3]})\;\;\;A^{[3]} -(n^{[3]},m)\;\;\;b^{[4]}-(n^{[4]},1)$
计算之后 $Z^{[4]}-(n^{[4]},m)\;\;\;A^{[4]}-(n^{[4]},m)$

从上面的前馈过程使用归纳法可以得到对应参数的矩阵规律,以便在编写网络时候核对矩阵维度:
$W^{[l]} -(n^{[l]},n^{[l-1]})$
$b^{[l]} -(n^{[l]},1)$
$A^{[l]} -(n^{[l]},m)$
$Z^{[l]} -(n^{[l]},m)$

2.2 反向传播

反向传播是对成本函数反向微分的过程,所以耗时会远大于前馈过程,这个过程中前馈的输入输出会反过来,为了便于理解对比,接下来使用与前馈一致的符号规定
这里为了直观我们将上述的网络结构抽象成一个流程图:
在这里插入图片描述
输出层
$dA^{[4]} = \frac{\partial loss}{\partial A^{[4]}}$
$dZ^{[4]} =dA^{[4]}\;\; \frac{\partial A}{\partial Z^{[4]}} = dA^{[4]} * g^{'}(Z^{[4]})$
$dW^{[4]} =\frac{1}{m} dZ^{[4]} \;\; \frac{\partial Z^{[4]}}{\partial W^{[4]}} = \frac{1}{m} dZ^{[4]} \;A^{[3]T}$
$db^{[4]} =\frac{1}{m} dZ^{[4]} \;\; \frac{\partial Z^{[4]}}{\partial b^{[4]}} = \frac{1}{m} dZ^{[4]}$
第3个隐藏层
$dA^{[3]} = dZ^{[4]}\frac{\partial Z^{[4]}}{\partial A^{[3]}} = W^{[4]T}dZ^{[4]}$
$dZ^{[3]} =dA^{[3]}\;\; \frac{\partial A^{[3]} }{\partial Z^{[3]}} = W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})$
$dW^{[3]} =\frac{1}{m} dZ^{[3]} \;\; \frac{\partial Z^{[3]}}{\partial W^{[3]}} = \frac{1}{m}W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})\;A^{[2]T}$
$db^{[3]} =\frac{1}{m} dZ^{[3]} \;\; \frac{\partial Z^{[3]}}{\partial b^{[3]}} = \frac{1}{m} W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})$

第2个隐藏层
$dA^{[2]} = dZ^{[3]}\frac{\partial Z^{[3]}}{\partial A^{[2]}} = W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}))$
$dZ^{[2]} =dA^{[2]}\;\; \frac{\partial A^{[2]} }{\partial Z^{[2]}} = W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]})$
$dW^{[2]} =\frac{1}{m} dZ^{[2]} \;\; \frac{\partial Z^{[2]}}{\partial W^{[2]}} = \frac{1}{m}W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})) * g^{'}(Z^{[2]}))\;A^{[1]T}$
$db^{[2]} =\frac{1}{m} dZ^{[2]} \;\; \frac{\partial Z^{[4]}}{\partial b^{[4]}} = \frac{1}{m} W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) * g^{'}(Z^{[2]}))$

第1个隐藏层
$dA^{[1]} = dZ^{[2]}\frac{\partial Z^{[2]}}{\partial A^{[1]}} = W^{[2]T}(W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]}))$
$dZ^{[1]} =dA^{[1]}\;\; \frac{\partial A^{[1]} }{\partial Z^{[1]}} = W^{[2]T}(W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]})) * g^{'}(Z^{[1]})$
$dW^{[1]} =\frac{1}{m} dZ^{[1]} \;\; \frac{\partial Z^{[1]}}{\partial W^{[1]}} = \frac{1}{m}W^{[2]T}(W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]})) * g^{'}(Z^{[1]})\;A^{[0]T}$
$db^{[1]} =\frac{1}{m} dZ^{[2]} \;\; \frac{\partial Z^{[4]}}{\partial b^{[4]}} = \frac{1}{m} W^{[2]T}(W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]})) * g^{'}(Z^{[1]})$

我们接着比对每一层 $d w$ :

$dW^{[4]} =\frac{1}{m} dZ^{[4]} \;\; \frac{\partial Z^{[4]}}{\partial W^{[4]}} = \frac{1}{m} dZ^{[4]} \;A^{[3]T}$
$dW^{[3]} =\frac{1}{m} dZ^{[3]} \;\; \frac{\partial Z^{[3]}}{\partial W^{[3]}} = \frac{1}{m}W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})\;A^{[2]T}$

$dW^{[2]} =\frac{1}{m} dZ^{[2]} \;\; \frac{\partial Z^{[2]}}{\partial W^{[2]}} = \frac{1}{m}W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]})) * g^{'}(Z^{[2]}))\;A^{[1]T}$

$dW^{[1]} =\frac{1}{m} dZ^{[1]} \;\; \frac{\partial Z^{[1]}}{\partial W^{[1]}} = \frac{1}{m}W^{[2]T}(W^{[3]T}(W^{[4]T}dZ^{[4]} * g^{'}(Z^{[3]}) )* g^{'}(Z^{[2]})) * g^{'}(Z^{[1]})\;A^{[0]T}$