关于正向传播、反向传播、梯度消失、梯度爆炸的理解

长风哇

已于 2024-04-09 12:19:56 修改

阅读量68

点赞数

文章标签：机器学习人工智能深度学习

于 2024-04-09 12:18:38 首次发布

原文链接：https://www.cnblogs.com/limitless-coding/p/17013464.html

版权

本文详细解释了神经网络的前向传播和反向传播过程，以及梯度消失和梯度爆炸现象，特别强调了Sigmoid激活函数在深层网络中可能导致的问题。

摘要由CSDN通过智能技术生成

假设有这样一个神经网络，包含一个输入层I，一个隐藏层H，一个输出层O

其中，输入层包含两个神经元，分别为i1和i2；隐藏层有两个神经元，分别为h1和h2；输出层有两个神经元，分别为o1和o2。

输入层到隐藏层的权重为w1、w2、w3和w4，偏置为b1；隐藏层到输出层的权重为w5、w6、w7和w8，偏置为b2。

每个神经元的输入y经过激活函数转变为输出z。

一、前向传播

1、计算隐藏层神经元h1和h2的带权输入：

2、计算隐藏层神经元h1和h2的输出激活值：

3、计算输出层神经元o1和o2的带权输入：

4、计算输出层神经元o1和o2的输出激活值：

以上就是正向传播的整个过程。

二、反向传播

1、计算总误差：

2、权值更新

以w5为例：

其中，

综合可得：

可以发现，最终得到的表达式非常简单，其中所需要的数据都是在正向传播过程中已经计算出来并存储好的，或者是在模型建立之初就已经设置好的。

最后更新w5：

以w1为例：

其中，

综上可得，

可以发现，最终得到的表达式非常简单，其中所需要的数据都是在正向传播过程中已经计算出来并存储好的，或者是在模型建立之初就已经设置好的。

最后更新w1：

以上就是反向传播的过程。

三、梯度消失和梯度爆炸。

假设有一个神经网络，有1个输入层，4个隐藏层，1个输出层，每个层都只有1个神经元。

如果要更新w1这个权重，可以得到下面这个偏导数，

化简，

梯度消失与梯度爆炸都是由于网络层数过多而引发的在反向传播时的链式法则连乘效应。

在最初的时候，通常使用Sigmoid函数作为神经网络的激活函数，而sigmoid激活函数的导函数取值范围为(0,0.25)。在模型训练时，初始化权值w通常小于1，随着层数的增加，根据链式法则，小于1的数不断相乘，导致梯度消失。而当训练的权值过大时，即|S'(z)w|>1，大于1的值不断相乘，导致梯度爆炸。

在产生梯度消失或梯度爆炸的情况时，越接近输出层的层级，梯度相对更为正常，权值也接近正常，而接近输入层的层级，若产生了梯度消失，权值更新缓慢或停止更新，神经网络就等价于仅有靠近输出层的浅层网络。

总的来说：

如果|S'(z)w|<1，随着网络层数的不断加深，最终梯度将以指数形式减少（梯度消失）。

如果|S'(z)w|>1，随着网络层数的不断加深，最终梯度将以指数形式增加（梯度爆炸）。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于正向传播、反向传播、梯度消失、梯度爆炸的理解

在模型训练时，初始化权值w通常小于1，随着层数的增加，根据链式法则，小于1的数不断相乘，导致梯度消失。在产生梯度消失或梯度爆炸的情况时，越接近输出层的层级，梯度相对更为正常，权值也接近正常，而接近输入层的层级，若产生了梯度消失，权值更新缓慢或停止更新，神经网络就等价于仅有靠近输出层的浅层网络。隐藏层到输出层的权重为w5、w6、w7和w8，偏置为b2。假设有一个神经网络，有1个输入层，4个隐藏层，1个输出层，每个层都只有1个神经元。假设有这样一个神经网络，包含一个输入层I，一个隐藏层H，一个输出层O。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。