梯度消失、梯度爆炸

最新推荐文章于 2023-11-25 21:12:56 发布

铲屎的胖虎

最新推荐文章于 2023-11-25 21:12:56 发布

阅读量201

点赞数

分类专栏：动手深度学习

本文链接：https://blog.csdn.net/qq_44957388/article/details/104401444

版权

本文详细探讨了深度学习中遇到的梯度消失和梯度爆炸问题，分析了其原因，并介绍了随机初始化模型参数的重要性。接着，文章通过Kaggle房价预测实战，阐述了数据预处理、模型训练、K折交叉验证等关键步骤，旨在帮助读者掌握深度学习的基础应用。

摘要由CSDN通过智能技术生成

梯度消失、梯度爆炸以及Kaggle房价预测

梯度消失和梯度爆炸
考虑到环境因素的其他问题
Kaggle房价预测

梯度消失和梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

产生原因：
层数比较多的神经网络模型在使用梯度下降法对误差进行反向传播时会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。
例如，对于含有3个隐藏层的神经网络，梯度消失问题发生时，靠近输出层的h3的权值更新相对正常，但是靠近输入层的h1的权值更新会变得很慢，导致靠近输入层的隐藏层权值几乎不变，扔接近于初始化的权值。这就导致h1 相当于只是一个映射层，对所有的输入做了一个函数映射，这时此深度神经网络的学习就等价于只有后几层的隐藏层网络在学习。梯度爆炸的情况是：当初始的权值过大，靠近输入层的h1的权值变化比靠近输出层的h3的权值变化更快，就会引起梯度爆炸的问题。

当神经网络的层数较多时，模型的数值稳定性容易变差。

假设一个层数为 $L$ 的多层感知机的第 $l$ 层 $\boldsymbol{H}^{(l)}$ 的权重参数为 $\boldsymbol{W}^{(l)}$ ，输出层 $\boldsymbol{H}^{(L)}$ 的权重参数为 $\boldsymbol{W}^{(L)}$ 。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping） $\phi(x) = x$ 。给定输入 $\boldsymbol{X}$ ，多层感知机的第 $l$ 层的输出 $\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}$ 。此时，如果层数 $l$ 较大， $\boldsymbol{H}^{(l)}$ 的计算可能会出现衰减或爆炸。举个例子，假设输入和所有层的权重参数都是标量，如权重参数为0.2和5，多层感知机的第30层输出为输入 $\boldsymbol{X}$ 分别与 $0.2^{30} \approx 1 \times 10^{-21}$ （消失）和 $5^{30} \approx 9 \times 10^{20}$

最低0.47元/天解锁文章

铲屎的胖虎

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失、梯度爆炸

梯度消失、梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。产生原因：层数比较多的神经网络模型在使用梯度下降法对误差进行反向传播时会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。例...
复制链接

扫一扫

专栏目录