深度学习基础（六）：LSTM模型及原理介绍

最新推荐文章于 2025-04-08 07:00:00 发布

刷街兜风

最新推荐文章于 2025-04-08 07:00:00 发布

阅读量2.5w

点赞数 8

分类专栏：深度学习机器学习

本文链接：https://blog.csdn.net/lyc_yongcai/article/details/73201446

版权

本文介绍了循环神经网络（RNN）的概念及其在处理序列数据中的优势，特别是长短期记忆网络（LSTM）如何解决长期依赖问题。LSTM通过特殊的门控机制有效地学习和维护长期依赖，使其在许多序列任务中表现出色。文章还探讨了LSTM的基本结构、工作原理和一些常见的变体。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看到一篇讲LSTM非常清晰的文章，原文来自Understanding LSTM Networks ，译文来自理解LSTM网络，以下做了简单的介绍

Recurrent Neural Networks

人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考。我们的思想拥有持久性。
传统的神经网络并不能做到这点，看起来也像是一种巨大的弊端。例如，假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件。
RNN 解决了这个问题。RNN 是包含循环的网络，允许信息的持久化。

这里写图片描述
RNN 包含循环

在上面的示例图中，神经网络的模块，A，正在读取某个输入 x_i，并输出一个值 h_i。循环可以使得信息可以从当前步传递到下一步。这些循环使得 RNN 看起来非常神秘。然而，如果你仔细想想，这样也不比一个正常的神经网络难于理解。RNN 可以被看做是同一神经网络的多次赋值，每个神经网络模块会把消息传递给下一个。所以，如果我们将这个循环展开：

这里写图片描述
展开的 RNN