反向传播算法的公式推导（BP算法）

最新推荐文章于 2024-02-22 09:30:00 发布

不断进取前进

最新推荐文章于 2024-02-22 09:30:00 发布

阅读量7.1k

点赞数 3

文章标签：神经网络函数算法数据应用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chenyukuai6625/article/details/74304992

版权

假设训练的样本集包含m个样例，因为此时对于单个样本我们将神经网络的代价函数定义为：

这里写图片描述

其中h_W,b(x)为输入数据x经过神经网络前向传播得到的输出结果，y为期望值。
所以对于这个包含m个样本集的数据集而言，整体的代价函数应为：

这里写图片描述

上式关于J(W,b)定义中的第一项是一个均方差项。第二项是一个权重衰减项，其目的是减小权重的幅度，防止过度拟合。n_l 表示神经网络的层数。s_l表示第 l 层神经元个数，不包含偏置单元。
在实际应用当中，我们使用批量梯度下降算法按照下面的公式来对神经网络的参数（权重W和偏置b）进行优化：

这里写图片描述

这里的 α 是学习速率，由上式可以发现问题的关键在于如何求解J(W,b)关于W和b的偏导数。这也就引出了本文所说的反向传播算法，它是计算偏导数的很有效的方法。
我们知道整体代价函数J(W,b)跟单个样本代价函数的关系，所以可得：

这里写图片描述

需要说明一点，第一行比第二行多出一项的原因在于权重衰减是作用于 W 而不作用于b上。
现在把原问题转换成对下面两个式子进行偏导求解：

这里写图片描述

因为第 l+1 层第 i 个神经元的输出 z_i^(l+1) 由下面的式子计算出：

这里写图片描述

所以可以再进一步的将单个样本的代价函数J(W,b;x,y)对W求导化简为：

这里写图片描述

同理，单个样本的代价函数J(W,b;x,y)对b求导可化简为：

这里写图片描述

因此问题就被转化为求解每一层每一个神经元所对应的残差。定义第k个样本在第l层第i个神经元上产生的残差如下：

这里写图片描述

所以此时权值W_ij^(l)的更新公式为：

这里写图片描述

偏置b_i^(l)的更新公式为：

这里写图片描述

所以现在的核心问题只剩下一个了，就是残差该如何进行求解？对于第n_l层（输出层）的第 i 个神经元，利用下式来求解其对应的残差：

这里写图片描述

然后计算倒数第二层即第 n_l −1层第 i 个神经元的残差：

这里写图片描述

将上式中的 n_l −1与 n_l的关系替换为l与l+1的关系，就可以得到：

这里写图片描述

所以单个样本代价函数的偏导数的结果为：

这里写图片描述

最后将求解得到的偏导数带入权值W和偏置b更新公式中去得到：

这里写图片描述

因此，概括下来反向传播算法主要包括以下几个步骤：
（1）进行前馈传导计算，利用前向传导公式，得到L₂、L₃直到输出层L_n的激活值。
（2）对输出层（第n_l层），计算其残差：

这里写图片描述

（3）对于l=n_l-1，n_l-2，…，2的各层，计算其对应的残差：

这里写图片描述

（4）计算出每个神经元对应的偏导数值：

这里写图片描述

（5）将计算得到的偏导数值带入到权重W和偏置b对应的更新公式中去：

这里写图片描述

不断进取前进

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法的公式推导（BP算法）

假设训练的样本集包含m个样例，因为此时对于单个样本我们将神经网络的代价函数定义为：其中hW,b(x)为输入数据x经过神经网络前向传播得到的输出结果，y为期望值。所以对于这个包含m个样本集的数据集而言，整体的代价函数应为：上式关于J(W,b)定义中的第一项是一个均方差项。第二项是一个权重衰减项，其目的是减小权重的幅度，防止过度拟合。在实际应用当中，我们使用批量梯度下降算
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。