梯度消失和梯度爆炸

最新推荐文章于 2024-06-16 12:00:00 发布

leemusk

最新推荐文章于 2024-06-16 12:00:00 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/leemusk/article/details/107553025

版权

本文介绍了梯度消失和梯度爆炸的现象，它们是深度学习中常见的问题。梯度消失主要由权重初始化不当、激活函数导数小于1以及数据尺度扩大引起，而梯度爆炸则与权重初始化值过大、数据尺度过大和激活函数有关。解决办法包括权值初始化，如使用Xavier或Kaiming初始化，以及选择非饱和激活函数如ReLU、Leaky ReLU和ELU等。此外，批量归一化、残差结构也是有效的防止梯度问题的方法。

摘要由CSDN通过智能技术生成

1. 前向传播和反向传播

在讲解梯度消失和梯度爆炸之前，我们需要先了解什么是前向传播和反向传播。

前向传播： 输入层数据开始从前向后，数据逐步传递至输出层。
反向传播： 损失函数从后向前，梯度逐步传递至第一层。

在讲解前向传播和反向传播计算过程之前，我们先介绍一下计算图的概念，通过计算图可以很清楚的了解后向传播的计算过程，以3层网络为例。
在这里插入图片描述
蓝色圆圈表示运算操作，分别为乘法，激活函数，乘法，损失函数；白色框框表示传播的数值；蓝色框框表示权重；
前向传播不同多说，不断的乘以权重在通过激活函数即可；
反向传播的计算过程本质是链式求导过程。下面为 $W_1$ 的计算过程，从后向前逐步进行计算。
在这里插入图片描述

2. 梯度消失和梯度爆炸产生的原因

了解了前向传播和反向传播机制之后，再去了解梯度消失、爆炸就很简单了。
以5层网络为例，激活函数为 $f (z)$ , $f_{i+1} = f(f_i \cdot x)$ ，通过计算图给出 $W_1$ 的梯度推导公式，我们将根据这个公式进行梯度消失、爆炸的分析。

在这里插入图片描述
$\Delta W_1 = \frac {\partial loss} {\partial out} \frac {\partial out} {\partial f3} \frac { \partial f3} {\partial 2} \frac {\partial f2} {\partial f1} \frac {\partial f1} {\partial W_1} \\ \quad \\ = \frac {\partial loss} {\partial out} W_4f'W_3f'W_2f'x \\ \quad \\ \Delta W_2 = \frac {\partial loss} {\partial out} \frac {\partial out} {\partial f3} \frac { \partial f3} {\partial f_2} \frac {\partial f_2} {\partial W_2} \\ \quad \\ = \frac {\partial loss} {\partial out} W_4f' W_3f'f_1$

最低0.47元/天解锁文章

leemusk

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
梯度消失和梯度爆炸

1. 前向传播和反向传播在讲解梯度消失和梯度爆炸之前，我们需要先了解什么是前向传播和反向传播。前向传播：输入层数据开始从前向后，数据逐步传递至输出层。反向传播：损失函数从后向前，梯度逐步传递至第一层。在讲解前向传播和反向传播计算过程之前，我们先介绍一下计算图的概念，通过计算图可以很清楚的了解后向传播的计算过程，以3层网络为例。蓝色圆圈表示运算操作，分别为乘法，激活函数，乘法，损失函数；白色框框表示传播的数值；蓝色框框表示权重；前向传播不同多说，不断的乘以权重在通过激活函数即可；反向传播的
复制链接

扫一扫

专栏目录