LSTM系列的梯度问题

最新推荐文章于 2025-04-22 16:07:48 发布

jcsyl_mshot

最新推荐文章于 2025-04-22 16:07:48 发布

阅读量4.6k

点赞数 3

分类专栏： NLP 文章标签： LSTM BP

本文链接：https://blog.csdn.net/jcsyl_mshot/article/details/80712110

版权

本文探讨了神经网络、RNN、LSTM和GRU中的梯度问题，分析了前向和后向传播过程，并详细阐述了梯度消失的原因及LSTM如何通过cell状态和forget gate缓解这一问题。同时，介绍了Batch Normalization在解决梯度问题上的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.前沿

本文主要围绕NN、RNN、LSTM和GRU，讨论后向传播中所存在的梯度问题，以及解决方法，力求深入浅出。

2.神经网络开始

神经网络包括前向过程和后向过程，前向过程定义网络结构，后向过程对网络进行训练（也就是优化参数），经过多轮迭代得到最终网络（参数已定）
我们先来分析一个非常简单的三层神经网络：
这里写图片描述
数据集 $D={(x_1, y_1), (x_2, y_2),...,(x_m, y_m)}$

2.1前向过程：

在输入层，假设该层节点数为d，也就是特征x的维度， $x_i$ 作为该层输出；

在隐藏层中，该层节点数为q，每个节点的输入 $\alpha_h$ 就是上一层所有节点输出 $x_i$ 的线性组合值，该节点的输出 $b_h 是 \alpha_j$ 的激活值，这里假设使用sigmoid激活函数；

在输出层，该层节点数为l，也就是输出y的维度，同理，每个节点的输入 $\beta_j$ 是 $b_h$ 的线性组合值，输出 $y_j' 是 \beta_j 的激活值$ ，根据不同任务选择不同激活函数，比如二分类任务一般是用sigmoid激活函数把 $y_j' 限制到[0,1]之间。$

2.2后向过程

1）首先我们根据网络输出和真实Label来定义Loss函数，这里定义为简单的均方误差：

$E_k = \frac{1}{2}\sum_{j=1}^{l}{(y_j'-y_j)^{2}}$

那么我们的目标就是最小化Loss，调整参数 w_{hj} 和 v_{ih} ，使得网络尽量去拟合真实数据。如何求最小值？那当然是求导了，根据loss函数对参数求导，然后往梯度下降的方向去更新参数，可以降低loss值。梯度主宰更新，如果梯度太小，会带来梯度消失问题，导致参数更新很慢；那如果梯度很大，又会造成梯度爆炸问题。

2）对于输出层参数 $w_{ij} ，E对 w_{hj}$ 进行链式求导，也就是，E先对节点的输出 $y_j'$ 求导，再对节点的输入 $\beta_j$ 求导，最后 对 $w_{hj}$ 求导，结果为：
∂E∂whj=∂E∂y′j∂y′j∂βj∂βj∂whj=(y′j−yj