当代深度学习模型介绍--长短期记忆网络（LSTMs）

最新推荐文章于 2024-09-11 15:38:59 发布

Amy_bj

最新推荐文章于 2024-09-11 15:38:59 发布

阅读量506

点赞数 3

分类专栏： AI大模型文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Amy_bj/article/details/137167415

版权

AI大模型专栏收录该内容

21 篇文章 0 订阅

订阅专栏

AI大模型学习

方向一：AI大模型学习的理论基础

模型和应用的多样化：随着研究的深入，深度学习领域出现了多种创新的模型架构：

卷积神经网络（CNNs）专门针对图像处理任务进行了优化，通过模拟生物视觉系统的工作原理，极大地提高了图像识别和分类的准确度。
循环神经网络（RNNs）和它们的改进版本，如长短期记忆网络（LSTMs）和门控循环单元（GRUs），则专门用于处理序列数据，如文本和时间序列，有效捕捉数据中的时间关系和顺序信息。
最近，Transformer模型和它的变体（如BERT、NLP、GPT系列）在处理自然语言处理任务方面取得了显著的成就，它们的设计优化了数据中长距离依赖关系的捕捉，极大地提升了机器翻译、文本生成和理解的能力。

长短期记忆网络（Long Short-Term Memory networks，简称LSTMs）是一种特殊类型的循环神经网络（RNN），它能够学习长期依赖关系。LSTM由Hochreiter和Schmidhuber在1997年提出，旨在解决标准RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTMs通过引入一个复杂的内部结构，包括多个门控机制，能够更有效地控制信息的流动，使网络能够在需要时保持长期的记忆，同时在不再需要时丢弃无用的信息。

LSTM的关键组件

LSTM单元主要由四个核心部分组成，它们共同工作以决定信息如何被存储、更新或删除：

遗忘门（Forget Gate）：
- 负责决定哪些信息应该从单元状态中丢弃。
- 通过查看当前输入和前一隐藏状态，输出一个在0到1之间的数值给每个在单元状态中的数。
- 数值接近0表示丢弃信息，接近1表示保留信息。
输入门（Input Gate）：
- 决定哪些新的信息被存储在单元状态中。
- 包含两个部分：一个sigmoid层决定哪些值我们将更新，以及一个tanh层创建一个新的候选值向量，可以被添加到状态中。
单元状态（Cell State）：
- 是LSTM的核心，它在网络中贯穿运行，只有少数操作被施加于它，整个过程非常轻微。
- 单元状态的更新涉及到遗忘门决定丢弃的信息和输入门决定添加的新信息的结合。
输出门（Output Gate）：
- 决定下一个隐藏状态的值。
- 隐藏状态包含关于当前输入的有用信息，也用于预测或决策。
- 输出门查看当前输入和前一隐藏状态，决定哪些部分的单元状态将输出。