Backpropagation 过程推导

最新推荐文章于 2024-05-19 14:00:00 发布

卯哥

最新推荐文章于 2024-05-19 14:00:00 发布

阅读量1.2k

点赞数

BackPropagation 过程推导

注：本文是作者在借鉴其他前辈的推导过程的基础上，加入了一些自己的理解，便于新手入门，无商业用途。

反向传播算法（Backpropagation Algorithm，简称BP算法）是深度学习的重要思想基础，对于初学者来说也是必须要掌握的基础知识！本文希望以一个清晰的脉络和详细的说明，来让读者彻底明白BP算法的原理和计算过程。本文主要由以下部分组成：

1. 前向传播

2. 反向传播（矩阵化表示）

3. 具体实例

前向传播

首先我们定义如下的神经网络：

图1 神经网络结构（三层）

图1所示是一个简单的三层（两个隐藏层，一个输出层）神经网络结构，假设我们使用这个神经网络来解决二分类问题，我们给这个网络一个输入样本，通过前向运算得到输出。输出值的值域为，例如的值越接近0，代表该样本是“0”类的可能性越大，反之是“1”类的可能性大。

前向传播的运算：

根据图1，输入的样本为：
$\vec{a}=(x_{1},x_{2})$
第一层的网络参数为：
这里写图片描述
第二层的网络参数为：

第三层的网络参数为：

1. 第一层隐藏层的计算：
这里写图片描述

这里写图片描述

2. 第二，三层隐藏层的计算：
这里写图片描述

反向传播（BP）

这里写图片描述
因此，我们如果想要计算上述两个等式左边的结果，要先解决等式右边每一项的结果。
首先我们先计算 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$ ，然后计算 $\frac{\partial L(y,\hat{y})}{\partial z^{(k)}}$ ，最后计算 $\frac{\partial z^{(k)}}{\partial W^{(k)}}$ .

计算 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$ ：

首先先补充雅克比矩阵的知识：
这里写图片描述
因此：

因此我们很容易得到：
其他各层的 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$ 都是单位矩阵。

计算 $\frac{\partial L(y,\hat{y})}{\partial z^{(k)}}$ ：

这里写图片描述

计算 $\frac{\partial z^{(k)}}{\partial W^{(k)}}$ ：

根据式子这里写图片描述
很容易可以得到 $\frac{\partial z^{(k)}}{\partial W^{(k)}}$ $= n^{(k)}$ .

$\delta(k)$ 可以不停地通过迭代一直到最后一层（迭代公式上面已给出），这也就是从一个一般性的例子来表现反向传播（Backpropagation）的含义。

具体实例

这里写图片描述

因此，如果我们只是想要去更新某一个权值或者偏置，可以直接用链式法则求最后的Loss函数针对权值或者偏置的偏导数，然后设定合适的步长（太长容易失去收敛，太短效率过低），运用梯度下降法来进行更新。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Backpropagation 过程推导

BackPropagation 过程推导注：本文是作者在借鉴其他前辈的推导过程的基础上，加入了一些自己的理解，便于新手入门，无商业用途。反向传播算法（Backpropagation Algorithm，简称BP算法）是深度学习的重要思想基础，对于初学者来说也是必须要掌握的基础知识！本文希望以一个清晰的脉络和详细的说明，来让读者彻底明白BP算法的原理和计算过程。本文主要由以下部分组成：...
复制链接

扫一扫

卯哥 CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

130万+: 周排名

179万+: 总排名

4万+: 访问

: 等级

374: 积分

22: 粉丝

60: 获赞

15: 评论

246: 收藏

私信

关注

热门文章

最新评论

YOLOv1的原理及实现过程
张秀婵: 原文中的话： 3.从未处理的框中继续选一个得分最高的，重复上述过程。
YOLOv1的原理及实现过程
张秀婵: 猜想是一个输出一个最近似的框，但是这个过程会反复，会自主学习上一次的结果。
梯度下降法（Gradient Descent）推导和示例
省下洗发水钱买书: 或者说加个前置条件，其要求以最快速度下降
梯度下降法（Gradient Descent）推导和示例
NgaPutunga: v*f’(x)<0 得到 cos(a) < 0, 并不能推出二者需要反向，也没有条件约束要求数量积值最小，只要求了<0. 全网都没有对这个细节的解释，都是模棱两可的。这里其实是这样推：f(x, y) = f(x0, y0) + n*v*f'(x0, y0), 当f(x, y)为代价函数时，要求f(x, y)最小，则f(x0, y0) + n*v*f'(x0, y0)最小，由于f(x0, y0)是定值，只能要求n*v*f'(x0, y0)最小，才能推出v与f'(x0, y0)反向这个最小条件。参看博客：https://blog.csdn.net/lx101071/article/details/124321668
梯度下降法（Gradient Descent）推导和示例
旅行的青蛙: 这些图片是从什么软件里面导出来的啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。