梯度消失与梯度爆炸原理&初始化方法

最新推荐文章于 2022-08-16 18:57:42 发布

Nstar-LDS

最新推荐文章于 2022-08-16 18:57:42 发布

阅读量890

点赞数 1

分类专栏：机器学习笔记文章标签：神经网络深度学习 python

本文链接：https://blog.csdn.net/nstarLDS/article/details/104697087

版权

本文介绍了神经网络中梯度消失和梯度爆炸的现象及其原因，探讨了权重初始化的重要性，包括Xavier初始化和Kaiming初始化，并解释了如何通过调整权重的初始化方式来稳定梯度，保持数据尺度在适当范围。

摘要由CSDN通过智能技术生成

文章目录

基础概念

在详细了解神经网络中梯度消失与梯度爆炸的原理之前，先来回顾一下如下基本公式：
$\begin{aligned} &\mathbf{E}(\boldsymbol{X} * \boldsymbol{Y})=\boldsymbol{E}(\boldsymbol{X}) * \boldsymbol{E}(\boldsymbol{Y})\\ &\mathrm{D}(\boldsymbol{X})=\boldsymbol{E}\left(\mathrm{X}^{2}\right)-[\boldsymbol{E}(\boldsymbol{X})]^{2}\\ &\mathbf{D}(\boldsymbol{X}+\boldsymbol{Y})=\boldsymbol{D}(\boldsymbol{X})+\boldsymbol{D}(\boldsymbol{Y}) \end{aligned}$
其中随机变量X与Y相互独立，根据上面三个公式可推导得出下式关系
$\mathrm{D}(\mathrm{X} * \mathrm{Y})=\mathrm{D}(\mathrm{X}) * \mathrm{D}(\mathrm{Y})+\mathrm{D}(\mathrm{X}) *[\boldsymbol{E}(\boldsymbol{Y})]^{2}+\mathrm{D}(\mathrm{Y}) *[\boldsymbol{E}(\boldsymbol{X})]^{2}$
至此，基础知识准备完毕。

神经网络中的梯度消失与爆炸

面对如下结构的神经网络：
在这里插入图片描述
先来计算梯度，令 $H_1$ 表示第一个隐藏层， $H_2$ 表示第二个隐藏层，W代表权重矩阵，那么第二层隐藏层到输出层之间的权重矩阵 $W_2$ 的梯度为：
$\begin{aligned} \Delta \mathrm{W}_{2} &=\frac{\partial L \text { oss }}{\partial \mathrm{W}_{2}}=\frac{\partial L \text { oss }}{\partial o u t} * \frac{\partial o u t}{\partial H_{2}} * \frac{\partial H_{2}}{\partial w_{2}} \\ &=\frac{\partial L o s s}{\partial o u t} * \frac{\partial o u t}{\partial H_{2}} * H_{1} \end{aligned}$

最低0.47元/天解锁文章

Nstar-LDS

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
梯度消失与梯度爆炸原理&初始化方法

文章目录基础概念神经网络中的梯度消失与爆炸解决方法Xavier初始化Kaiming初始化其他初始化方法基础概念在详细了解神经网络中梯度消失与梯度爆炸的原理之前，先来回顾一下如下基本公式：E(X∗Y)=E(X)∗E(Y)D(X)=E(X2)−[E(X)]2D(X+Y)=D(X)+D(Y)\begin{aligned}&\mathbf{E}(\boldsymbol{X} * \bol...
复制链接

扫一扫