【第21期】观点:人工智能到底用 GPU?还是用 FPGA?

神经网络(前向传播和反向传导)

原创 2015年07月08日 14:57:12

        所谓神经网络就是将许多个单一“神经元”(图1)联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入,如图2所示。

                  

                   图1   神经元               

          

 

                      图2  神经网络结构图

本例神经网络的计算步骤如下:

                                                                            

 \begin{align}a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)})  \\a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)})  \\a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)})  \\h_{W,b}(x) &= a_1^{(3)} =  f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) \end{align}

 

       其中,\textstyle a^{(l)}_i 表示第\textstyle l 层第\textstyle i 单元的激活值(输出值)。

\textstyle z^{(l)}_i表示第\textstyle l层第\textstyle i 单元输入加权和(包括偏置单元),比如,\textstyle  z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i ,则\textstyle a^{(l)}_i = f(z^{(l)}_i)

那么,上面的等式可以更简洁地表示为:

\begin{align}z^{(2)} &= W^{(1)} x + b^{(1)} \\a^{(2)} &= f(z^{(2)}) \\z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\h_{W,b}(x) &= a^{(3)} = f(z^{(3)})\end{align}这种方法的计算步骤叫作前向传播,这种联接图没有闭环或回路。

反向传导算法

       假设我们有一个固定样本集 \textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \},它包含\textstyle m 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例 \textstyle (x,y),其代价函数为:\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}

       这是一个(二分之一的)方差代价函数。给定一个包含 \textstyle m 个样例的数据集,我们可以定义整体代价函数为:

 \begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right]                       + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}

        以上公式中的第一项 \textstyle J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减

权重的幅度,防止过度拟合。

        梯度下降法中每一次迭代都按照如下公式对参数 \textstyle W\textstyle b 进行更新:

\begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)\end{align}

        以上公式中的第一项 \textstyle J(W,b) 是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。我们首先来讲一下如何使用反向传播算法来计算\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y),这两项是单个样例\textstyle (x,y) 的代价函数\textstyle J(W,b;x,y) 的偏导数。一旦我们求出该偏导数,就可以

推导出整体代价函数\textstyle J(W,b) 的偏导数:

\begin{align}\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &=\left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\\frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &=\frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)})\end{align}

        以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 \textstyle W 而不是\textstyle b

        反向传播算法的思路如下:给定一个样例 \textstyle (x,y),我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括\textstyle h_{W,b}(x) 的输出值。之后,针对第 \textstyle l 层的每一个节点\textstyle i,我们计算出其“残差”\textstyle \delta^{(l)}_i,该残差表明了该节点对

最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为\textstyle \delta^{(n_l)}_i  (第\textstyle n_l 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 \textstyle l+1 层节点)残差的加权平均值计算\textstyle \delta^{(l)}_i,这些节点以\textstyle a^{(l)}_i 作为输入。下面将给出反向传导算法的细节:

    1.进行前馈传导计算,利用前向传导公式,得到 \textstyle L_2, L_3, \ldots直到输出层\textstyle L_{n_l} 的激活值。

    2.对输出层(第 \textstyle n_l 层),计算:

 \begin{align}\delta^{(n_l)}= - (y - a^{(n_l)}) \bullet f'(z^{(n_l)})\end{align}

    3.对于 \textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2 的各层,计算:

 \begin{align}\delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)})\end{align}

   4.计算最终需要的偏导数值:

 \begin{align}\nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\\nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}.\end{align}

   其中:

    \begin{align}\delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)\end{align}


来源:

http://deeplearning.stanford.edu/wiki/index.php/Neural_Networks

 

 

版权声明:本文为博主原创文章,未经博主允许不得转载 欢迎交流~ 举报

相关文章推荐

BP算法

BP算法是关于误差的反向传播算法,就是从输出层开始,将结果与预期结果相比较,求出误差,然后按照梯度最大下降方向,调整神经元的联接权值,然后依次逐层调整各层之间的连接权值,对于批量学习方式而言,不断重复...

前向型神经网络之BPNN(附源码)

神经网络 静态神经网络 BP算法 前向型神经网络 BPNN 人工神经网络 误差反向传播算法 Back Propagation 数据挖掘 机器学习

前向神经网络算法原理

总体上来讲,神经网络的算法是比较复杂的,后面有非常精妙的数学原理,而且对这些数学方法,还需要证明其具有收敛性,所以很多神经网络的书籍,绝大部分都是一些数学模型介绍、推导和证明,对于非数学专业的我们来说...

深度学习(Deep Learning)读书思考二:前向神经网络

概述 深度学习也是机器学习的一种,是由前向神经网络或者多层感知机算法演化而来,由于计算资源和可计算数据增加,神经网络的效果逐渐浮现出来,从而迎来了蓬勃发展。本节主要介绍深度学习中基础网络结构前...

神经网络中前向传播和反向传播解析

虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解,最近在看去年LeCun和Hinton在Nature上发表的deep learning的review,有两张图分...

神经网络中的参数的求解:前向和反向传播算法

original url: http://www.cnblogs.com/happylion/p/4193527.html For more info: you could ref  the ...

神经网络-前向传播

转载请标明出处:小帆的帆的专栏特点方向:从左往右 作用:由最左边的输入,计算出最右边的输出记号下面的推导和实践中会用到这些记号X: 泛指数据集,不明确说明是用于,训练、验证还是测试 y: 泛指数据...

三层神经网络前向后向传播示意图

BP 神经网络信号前向后向传播示意图主要参考博文 BP神经网络后向传播算法 本文主要分析下面的三层神经网络的信号传播,两个输入,两个隐层,一个输出网络中每个紫色模块是一个神经元,它包括信号输入求和,...

卷积神经网络 cnnff.m程序 中的前向传播算法 数据 分步解析

最近在学习卷积神经网络,哎,真的是一头雾水!最后决定从阅读CNN程序下手! 程序来源于GitHub的DeepLearnToolbox 由于确实缺乏理论基础,所以,先从程序的数据流入手,虽然对高手来...

神经网络的基本知识(五):前向网络:BP网络

BP网络其实还是前向反馈网络中的一种,她对于处理非线性分类问题有独特的优势。BP NN can approach to any Non-Linear Mapping Relationship, onl...
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)