LSTM内部结构-我彻底明白了

笑傲NLP江湖

于 2022-01-14 10:46:57 发布

阅读量983

点赞数

文章标签： lstm 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KaikebaAI/article/details/122489187

版权

本文详细介绍了LSTM的内部结构，包括输入门、遗忘门、输出门和记忆细胞，以及其在PyTorch中的实现。通过公式解析和代码示例，适合深度学习初学者理解LSTM的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原创：李孟启

1、背景

LSTM（Long Short-term Memory，LSTM）长短期记忆[1]，是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，LSTM就能够很好地解决这类问题。

本教程适合入门深度学习的小白，大神请绕行，你要是即将参加面试，那么这篇文章也会对你产生帮助。

2、LSTM结构

如图1所示，这是一个时刻的LSTM的内部结构图，多个时刻就是下图在横向上拼接组成。

图1 LSTM单元结构图

（1）从图中我们可以看到有三个门，即输⼊门（input gate）、遗忘门（forget gate）和输出门（output gate），以及记忆细胞（某些⽂献把记忆细胞当成⼀种特殊的隐藏状态），从⽽记录额外的信息。这里你可能不懂隐藏状态，但是没关系，你只需要理解下面的计算过程即可。一提到LSTM，我们就不得不面对下面的公式，这些公式也是面试中常被问及的地方，也有一定的重复性，突出两个字“好记“。

$\boldsymbol{I}_{t}=\sigma\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x i}+\boldsymbol{H}_{t-1} \boldsymbol{W}_{h i}+\boldsymbol{b}_{i}\right)$ 式1

$\boldsymbol{F}_{t}=\sigma\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x f}+\boldsymbol{H}_{t-1} \boldsymbol{W}_{h f}+\boldsymbol{b}_{f}\right)$ 式2

$\boldsymbol{O}_{t}=\sigma\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x o}+\boldsymbol{H}_{t-1} \boldsymbol{W}_{h o}+\boldsymbol{b}_{o}\right)$ 式3

这里从数学运算的角度上讲解，所以不会涉及太多深度学习的名词，我们先来明确公式中每个参数的含义，这些参数是以矩阵的形式存在的， $X_{t}$ 是

最低0.47元/天解锁文章

笑傲NLP江湖

博客等级

码龄4年

52
原创

67
点赞

545
收藏

27
粉丝

关注

私信

热门文章

最新评论

TextCNN-文本情感分析项目实战
噜啦噜啦嘞。: [code=python] Traceback (most recent call last): File "D:\codePython\textCNN\textcnn.py", line 204, in <module> train(train_iter, test_iter, net, loss, optimizer, device, num_epochs) File "D:\codePython\textCNN\textcnn.py", line 189, in train out = net(X) File "D:\python37\lib\site-packages\torch\nn\modules\module.py", line 489, in __call__ result = self.forward(*input, **kwargs) File "D:\codePython\textCNN\textcnn.py", line 139, in forward encoding = torch.cat([self.pool(F.relu(conv(embeddings))).squeeze(-1) for conv in self.convs], dim=1) File "D:\codePython\textCNN\textcnn.py", line 139, in <listcomp> encoding = torch.cat([self.pool(F.relu(conv(embeddings))).squeeze(-1) for conv in self.convs], dim=1) NameError: name 'F' is not defined [/code]
TextCNN-文本情感分析项目实战
噜啦噜啦嘞。: 博主，出现这个错误怎么破呀 [code=python] [/code][code=python] [/code]
TextCNN-文本情感分析项目实战
噜啦噜啦嘞。: 解决了吗
常用软件的介绍及安装：Python、Jupyter、Pycharm、Pytorch
m0_65777796: 你好，pycharm也可以通过anaconda安装吗，里面pycharm安装包的网址可以提供一下嘛
Flask深度学习模型服务端部署
Yichen.: 您好，你这个实现了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。