循环神经网络RNN以及LSTM的推导和实现

最新推荐文章于 2025-09-28 22:48:09 发布

原创

最新推荐文章于 2025-09-28 22:48:09 发布 · 1.7w 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #RNN #LSTM #推荐系统

本文介绍了循环神经网络RNN及其改进版LSTM的基础概念和工作原理。首先从传统的神经网络谈起，阐述了RNN解决序列问题的特性，接着详细推导了RNN的计算过程，并探讨了RNN的梯度消失问题。然后，重点讲解了LSTM的结构，包括遗忘门、输入门、输出门和细胞状态的计算，展示了如何通过LSTM克服RNN的问题。最后，讨论了LSTM的误差反向传播和参数求导。文章提供了LSTM的代码实现链接，帮助读者更好地理解和应用RNN与LSTM。

1. 从神经网络谈起

了解神经网络的都知道，神经网络作为一种非线性模型，在监督学习领域取得了state-of-art的效果，其中反向传播算法的提出居功至伟，到如今仍然是主流的优化神经网络参数的算法. 递归神经网络、卷积神经网络以及深度神经网络作为人工神经网络的"变种"，仍然延续了ANN的诸多特质，如权值连接，激励函数，以神经元为计算单元等，只不过因为应用场景的不同衍生了不同的特性，如：处理变长数据、权值共享等。

为了介绍RNN，先简单的介绍ANN. ANN的结构很容易理解，一般是三层结构（输入层-隐含层-输出层）. 隐含层输出 $o_j$ 和输出层输出 $o_k$ 如下。其中 $net_j$ 为隐含层第 $j$ 个神经元的输入, $u$ 为输入层和隐含层的连接权值矩阵， $v$ 为隐含层和输出层之间的连接权值矩阵.

$ \begin{align} o_j & = f(net_j) \
o_k & = f(net_k) \
net_j & =\sum_i(x_{i}u_{i,j})+b_j \
net_k & =\sum_j(o_{j}v_{j,k})+b_k \end{align} $$

定义损失函数为 $E_p=\frac{1}{2}\sum_k (o_k - d_k)^2$ ,其中 $p$ 为样本下标， $o^k$ 为第 $k$ 个输出层神经元的输出, $d^k$ 为样本在第 $k$ 个编码值。然后分别对参数 $v_{j,k}$ 、 $u_{i,j}$ 进行求导，可得：

$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…$

从对 $\frac{\partial E_p} {\partial u_{i,j}}$

最低0.47元/天解锁文章

5 条评论

安乙墨Ge 2019.03.02
建议看看时间展开图参数表示与上下文是否混乱，，哈哈，想是随意粘图的后果。。。
- 安乙墨Ge回复kymowind 2019.03.02
  [reply]kymowind[/reply] get√
- kymowind回复安乙墨Ge 2019.03.02
  [reply]ITealover[/reply] 哈哈图片还真不是随意zhande.. 可以重点关注推倒和实现的部分图片网上一堆

土豆丝炒咸菜 2018.07.13
看了一圈，就这个写的好理解些

weixin_42172575 2018.06.23
深入浅出，赞！

月明则星稀 2018.05.26
楼主的你的公式表达有问题：在综合RNN网络误差E对W,U,V的梯度缺少在T序列的求和。残差求出的只是t时刻的梯度。包括LSTM应该也有问题 [/code]

march_on 2017.07.28
有一个疑问哈，c_t=f^t*c^{t-1}+i^t*\tilde{c}^t 这里 c_t的维度是多少，我理解f^t，c^{t-1}，i^t和\tilde{c}^t都是一个向量，求出来的c_t是一个标量，但是感觉又不对，请博主赐教
- march_on回复kymowind 2017.07.28
  [reply]kymowind[/reply] ok，多谢~
- kymowind回复march_on 2017.07.28
  [reply]march_on[/reply] 对的~ 文中的点乘有歧义，我改改哈~
- march_on回复kymowind 2017.07.28
  [reply]kymowind[/reply] 多谢，如果这些纬度都一样的话，那“c_t=f^t*c^{t-1}+i^t*\tilde{c}^t”这里应该就不是内积了把，应该是对应元素相乘，是这样吗
- kymowind回复march_on 2017.07.28
  [reply]march_on[/reply] c_t如果是标量的话，保存的信息量就很小了，实际上lstm的门可以认为是神经网络中的一层，c_t,i_t,g_t,o_t 和h_t的维度一样~