循环神经网络RNN以及LSTM的推导和实现-CSDN博客

本文链接：https://blog.csdn.net/kymowind/article/details/75145775

本文介绍了循环神经网络RNN及其改进版LSTM的基础概念和工作原理。首先从传统的神经网络谈起，阐述了RNN解决序列问题的特性，接着详细推导了RNN的计算过程，并探讨了RNN的梯度消失问题。然后，重点讲解了LSTM的结构，包括遗忘门、输入门、输出门和细胞状态的计算，展示了如何通过LSTM克服RNN的问题。最后，讨论了LSTM的误差反向传播和参数求导。文章提供了LSTM的代码实现链接，帮助读者更好地理解和应用RNN与LSTM。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 从神经网络谈起

了解神经网络的都知道，神经网络作为一种非线性模型，在监督学习领域取得了state-of-art的效果，其中反向传播算法的提出居功至伟，到如今仍然是主流的优化神经网络参数的算法. 递归神经网络、卷积神经网络以及深度神经网络作为人工神经网络的"变种"，仍然延续了ANN的诸多特质，如权值连接，激励函数，以神经元为计算单元等，只不过因为应用场景的不同衍生了不同的特性，如：处理变长数据、权值共享等。

为了介绍RNN，先简单的介绍ANN. ANN的结构很容易理解，一般是三层结构（输入层-隐含层-输出层）. 隐含层输出 $o_j$ 和输出层输出 $o_k$ 如下。其中 $net_j$ 为隐含层第 $j$ 个神经元的输入, $u$ 为输入层和隐含层的连接权值矩阵， $v$ 为隐含层和输出层之间的连接权值矩阵.