Feedforward and BackPropagation Algorithm

最新推荐文章于 2021-02-18 13:35:27 发布

weixin_34088598

最新推荐文章于 2021-02-18 13:35:27 发布

阅读量324

点赞数

原文链接：http://www.cnblogs.com/rhyswang/p/6888580.html

版权

在下图所示的Neural Network中，我们将拥有三个节点的layer1及layer4分别称为输入和输出层，而中间的两层layer2,layer3称为隐藏层(hidden layer)。输入数据X，从左侧进入神经网络，经过层层传播最终从右侧输出的过程，称为Feedforward。而根据training set来调整参数的算法，称为Backpropagation Algorithm，即反向传播算法。

在Hidden layer的每个Node中，都存在一个non-linear unit，常用的是有tanh,sigmoid以及ReLu等。如果没有non-linear unit，则无论NN的architecture如何，输出将永远是输入数据的线性组合，Neural Network也就失去了意义。

首先我们约定weight的表达方式如下图所示：

每个节点的左侧输入值z等于：

每个节点的右侧输出值a等于在其输入值z的基础上，施加非线性可微函数σ

假设Neural Network总共有L层，则会有L-1个ω矩阵存在，所以ω矩阵的维度是size(ω)=q*p,其中q为下一层的节点数，p为本层的节点数。在上图的Layer3中，w³为如下的2x4的矩阵形式：

如果将Feedforward propagation的过程矩阵化，则可以写为：

下面来看如何使用Backpropagation更新ω呢。Backpropagation其实是Gradient Descent的一种拓展，如果我们能够拿到cost function对某个ω的梯度值，那么我们就可以对其做梯度下降并迭代求出最优结果。更新算法见：线性回归与梯度下降

为了说明方便，一般会定义一个δ作为某一个节点输入端的误差（即z值的误差）:

矩阵化后：

我们可以根据上式，直接算出最后一层的δ值，但是对于任意一层、任意一个节点的δ，则需要将最后一层的误差值进行层层传导，其公式为：

矩阵化后，任意一层的节点误差矩阵为

而我们最终的目的在于求得w的梯度，从而利用gradient descent去更新参数，对于任意一层l的某条路径j,k，我们有：

对任意一层l的所有weight，我们有：

对于第l层bias处的梯度：

转载于:https://www.cnblogs.com/rhyswang/p/6888580.html

weixin_34088598

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Feedforward and BackPropagation Algorithm

在下图所示的Neural Network中，我们将拥有三个节点的layer1及layer4分别称为输入和输出层，而中间的两层layer2,layer3称为隐藏层(hidden layer)。输入数据X，从左侧进入神经网络，经过层层传播最终从右侧输出的过程，称为Feedforward。而根据training set来调整参数的算法，称为Backpropagation Algorithm，即反向传播算...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。