dcxhun3的博客

目前主要研究方向 Big Data DL CV Medical images 邮箱:dcxhun3@163.com 若进一步交流请发邮件^-^...

神经网络(前向传播和反向传导)

        所谓神经网络就是将许多个单一“神经元”(图1)联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入,如图2所示。

                  

                   图1   神经元               

          

 

                      图2  神经网络结构图

本例神经网络的计算步骤如下:

                                                                            

\begin{align}a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)})  \\a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)})  \\a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)})  \\h_{W,b}(x) &= a_1^{(3)} =  f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) \end{align}

 

       其中,\textstyle a^{(l)}_i 表示第\textstyle l 层第\textstyle i 单元的激活值(输出值)。

\textstyle z^{(l)}_i表示第\textstyle l层第\textstyle i 单元输入加权和(包括偏置单元),比如,\textstyle  z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i ,则\textstyle a^{(l)}_i = f(z^{(l)}_i)

那么,上面的等式可以更简洁地表示为:

\begin{align}z^{(2)} &= W^{(1)} x + b^{(1)} \\a^{(2)} &= f(z^{(2)}) \\z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\h_{W,b}(x) &= a^{(3)} = f(z^{(3)})\end{align}这种方法的计算步骤叫作前向传播,这种联接图没有闭环或回路。

反向传导算法

       假设我们有一个固定样本集 \textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \},它包含\textstyle m 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例 \textstyle (x,y),其代价函数为:\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}

       这是一个(二分之一的)方差代价函数。给定一个包含 \textstyle m 个样例的数据集,我们可以定义整体代价函数为:

\begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}

        以上公式中的第一项 \textstyle J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减

权重的幅度,防止过度拟合。

        梯度下降法中每一次迭代都按照如下公式对参数 \textstyle W\textstyle b 进行更新:

\begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)\end{align}

        以上公式中的第一项 \textstyle J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。我们首先来讲一下如何使用反向传播算法来计算\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y),这两项是单个样例\textstyle (x,y) 的代价函数\textstyle J(W,b;x,y) 的偏导数。一旦我们求出该偏导数,就可以

推导出整体代价函数\textstyle J(W,b) 的偏导数:

\begin{align}\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &=\left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\\frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &=\frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)})\end{align}

        以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 \textstyle W 而不是\textstyle b

        反向传播算法的思路如下:给定一个样例 \textstyle (x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括\textstyle h_{W,b}(x) 的输出值。之后,针对第 \textstyle l 层的每一个节点\textstyle i,我们计算出其“残差”\textstyle \delta^{(l)}_i,该残差表明了该节点对

最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为\textstyle \delta^{(n_l)}_i  (第\textstyle n_l 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 \textstyle l+1 层节点)残差的加权平均值计算\textstyle \delta^{(l)}_i,这些节点以\textstyle a^{(l)}_i 作为输入。下面将给出反向传导算法的细节:

    1.进行前馈传导计算,利用前向传导公式,得到 \textstyle L_2, L_3, \ldots直到输出层\textstyle L_{n_l} 的激活值。

    2.对输出层(第 \textstyle n_l 层),计算:

\begin{align}\delta^{(n_l)}= - (y - a^{(n_l)}) \bullet f'(z^{(n_l)})\end{align}

    3.对于 \textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2 的各层,计算:

\begin{align}\delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)})\end{align}

   4.计算最终需要的偏导数值:

\begin{align}\nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\\nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}.\end{align}

   其中:

   \begin{align}\delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)\end{align}


来源:

http://deeplearning.stanford.edu/wiki/index.php/Neural_Networks

 

 

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载 欢迎交流~ https://blog.csdn.net/dcxhun3/article/details/46803513
个人分类: 深度学习
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

神经网络(前向传播和反向传导)

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭