DeepLearning之RNN和LSTM详解及实现

最新推荐文章于 2025-03-28 17:57:59 发布

Jiede1

最新推荐文章于 2025-03-28 17:57:59 发布

阅读量2.9w

点赞数 9

分类专栏：机器学习深度学习文章标签：神经网络预测数据

本文链接：https://blog.csdn.net/jiede1/article/details/58595418

版权

本文详细介绍了RNN（循环神经网络）的工作原理，包括其在处理序列数据时的优势，以及在NLP领域的广泛应用。接着，文章深入探讨了LSTM（长短时记忆网络），解释了其如何解决RNN的长期依赖问题，并通过其内部结构和门控机制来学习长期依赖信息。此外，还提供了LSTM的数学表达式和代码实现的简要说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RNN

1. 什么是RNNs
RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关，下图便是一个典型的RNNs：
这里写图片描述

在图中：有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNNs会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为“Back Projections”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。（这实际上就是LSTM）

右侧为计算时便于理解记忆而产开的结构。简单说，x为输入层，o为输出层，s为隐含层，而t指第几次的计算；V,W,U为权重，其中计算第t次的隐含层状态时为：