LSTM（长短期记忆网络）详解

一去不复返的通信er

已于 2024-11-14 23:00:38 修改

阅读量1.6k

点赞数 22

分类专栏： AI天梯 # RNN架构文章标签： lstm rnn 人工智能深度学习神经网络

于 2024-11-14 15:06:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42980908/article/details/143719897

版权

1️⃣ LSTM介绍

标准的RNN存在梯度消失和梯度爆炸问题，无法捕捉长期依赖关系。那么如何理解这个长期依赖关系呢？

例如，有一个语言模型基于先前的词来预测下一个词，我们有一句话 “the clouds are in the sky”，基于"the clouds are in the"，预测"sky"，在这样的场景中，预测的词和提供的信息之间位置间隔是非常小的，如下图所示，RNN可以捕捉到先前的信息。
在这里插入图片描述
然而，针对复杂场景，我们有一句话"I grew up in France… I speak fluent French"，"French"基于"France"推断，但是它们之间的间隔很远很远，RNN 会丧失学习到连接如此远信息的能力。这就是长期依赖关系。

为了解决该问题，LSTM通过引入三种门遗忘门，输入门，输出门控制信息的流入和流出，有助于保留长期依赖关系，并缓解梯度消失【注意：没有梯度爆炸昂】。LSTM在1997年被提出

2️⃣ 原理

下面这张图是标准的RNN结构：

$x_t$ 是t时刻的输入
$s_t$ 是t时刻的隐层输出， $s_t=f(U\cdot x_t+W\cdot s_{t-1})$ ，f表示激活函数， $s_{t-1}$ 表示t-1时刻的隐层输出
$h_t$ 是t时刻的输出， $h_t=softmax(V\cdot s_t)$

LSTM的整体结构如下图所示，第一眼看到，反正我是看不懂。前面讲到LSTM引入三种门遗忘门，输入门，输出门，现在我们逐一击破，一个个分析一下它们到底是什么。
在这里插入图片描述
这是3D视角的LSTM：

首先来看遗忘门，也就是下面这张图：

在这里插入图片描述

遗忘门输入包含两部分

$s_{t-1}$ ：表示t-1时刻的短期记忆（即隐层输出），在LSTM中当前时间步的输出 $h_{t-1}$ 就是隐层输出 $s_{t-1}$
$x_t$ ：表示t时刻的输入

遗忘门输出为 $f_t$ ，公式表示为：
$f_t=\sigma\left(W_f\cdot[h_{t-1},x_t] + b_f\right)$
其中， $W_f$ 和 $b_f$ 是遗忘门的参数， $s_{t-1},x_t]$ 表示concat操作。 $\sigma()$ 表示sigmoid函数。

遗忘门定我们会从长期记忆中丢弃什么信息【理解为：删除什么日记】，输出一个在 0 到 1 之间的数值，1 表示“完全保留”，0 表示“完全舍弃”。

然后来看输入门：
在这里插入图片描述

输入门的输入包含两部分：

$s_{t-1}$ ：表示t-1时刻的短期记忆
$x_t$ ：表示t时刻的输入

输入门的输出为新添加的内容 $i_t * \tilde{C}_t$ ，其具体操作为：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。