LSTM的结构、原理及其数据的输入格式介绍

最新推荐文章于 2025-04-08 18:50:53 发布

Levennnnn

最新推荐文章于 2025-04-08 18:50:53 发布

阅读量3w

点赞数 31

分类专栏： Deep_Learning 文章标签：神经网络深度学习人工智能 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42600675/article/details/110261417

版权

本文介绍了LSTM（长短期记忆网络）的基本概念，包括它为何能解决长序列训练的问题，以及其网络结构和工作原理。重点阐述了LSTM的三个门——忘记门、输入门和输出门的作用，以及LSTM在网络中的输入输出格式。通过对LSTM的详细解析，有助于加深对其在深度学习应用中的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、LSTM是什么？
二、LSTM的网络结构及原理
参考资料

前言

LSTM由于其结构特点，能够学习长的依赖关系，被广泛应用到深度学习的各个领域，作者最近使用LSTM实现了两个小的工程应用场景，对LSTM的结构以及特点进行了学习整理，希望对大家理解这种结构有帮助。

一、LSTM是什么？

LSTM全写为Long short-term memory(长短期记忆)，是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。它由 $H o c h r e i t e r$ & $S c h m i d h u b e r$ (1997)提出，并被 $A l e x G r a v e s$ 进行了改良和推广，现在在机器学习领域被广泛使用。简单来说，LSTM相比普通的RNN，能够在更长的序列中有更好的表现，它能通过门的控制保留很久之前的特征，这是它最大的特点。

二、LSTM的网络结构及原理

1.LSTM的网络结构

LSTM是一种特殊的RNN(循环神经网络)，先看RNN的结构特点：
RNN的网络结构
LSTM的网络结构：
在这里插入图片描述

可以发现，相比RNN只有一个传递状态 $h^t$ ，LSTM有两个传输状态，一个 $c^t$ （cell state），和一个 $h^t$ （hidden state）。通常输出的 $c^t$ 是上一个状态传过来的加上一些数值，而 $h^t$ 则在不同节点下往往会有很大的区别。

2.LSTM的结构原理

下图是 LSTM 的计算过程，输入一共有四个： $Z$ 、输入门 $Z_i$ 、输出门

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。