LSTM长短时记忆

最新推荐文章于 2022-05-01 14:21:35 发布

ZhangJingHuaJYO

最新推荐文章于 2022-05-01 14:21:35 发布

阅读量930

点赞数 1

分类专栏：深度学习文章标签： lstm 深度学习

本文链接：https://blog.csdn.net/ZhangJingHuaJYO/article/details/122406776

版权

深度学习专栏收录该内容

7 篇文章 5 订阅

订阅专栏

LSTM的全称是Long Short Term Memory，它是具有记忆长短期信息的能力的神经网络,是一种改进之后的循环神经网络。提出的动机是为了解决普通RNN网络的长期依赖问题（具体细节直接搜索）。原始 RNN 的隐藏层只有一个状态，即 $h$ ，它对于短期的输入非常敏感。LSTM再增加一个状态，即 $C$ ，让它来保存长期的状态，称为单元状态(cell state)。

RNN是一个链式结构，每个时间片使用的是相同的参数。下面是典型的网络结构图：

在这里插入图片描述

LSTM和普通的RNN结构不同，典型网络结构如下图：

在这里插入图片描述

上图中每个黄色方框表示一个神经网络层，由权值，偏置以及激活函数组成；每个粉色圆圈表示元素级别操作；箭头表示向量流向；相交的箭头表示向量的拼接；分叉的箭头表示向量的复制。
在 t 时刻，LSTM 的输入有三个：当前时刻网络的输入值 $x_t$ 、上一时刻 LSTM 的输出值 $h_{t-1}$ 、以及上一时刻的单元状态 $C_{t-1}$ ；LSTM 的输出有两个：当前时刻 LSTM 输出值 $h_t$ 、和当前时刻的单元状态 $C_t$ .

本文将对LSTM的整体结构分部分展开。

1、下面是LSTM最重要的部分，即单元状态(cell state)：

在这里插入图片描述

其中： $C_t=f_t.C_{t-1}+i_t.\widetilde{C}_t$
由上一次的单元状态 $C_{t-1}$ 按元素乘以遗忘门 $f_t$ ，再用当前输入的单元状态 $C_t$ 按元素乘以输入门 $i_t$ ，再将两个积加和：这样，就可以把当前的记忆 $C_t$ 和长期的记忆 $C_{t-1}$ 组合在一起，形成了新的单元状态 $C_t$ 。

2、遗忘门

单元状态计算公式中的 $f_t$ 叫做遗忘门（如下图所示），表示 $C_{t-1}$ 的哪些特征被用于计算 $C_t$ 。 $f_t$ 是一个向量，向量的每个元素均位于 $[0 - 1]$ 范围内。通常我们使用 $s i g m o i d$ 作为激活函数， $s i g m o i d$ 的输出是一个介于 $[0 - 1]$ 区间内的值，但是当你观察一个训练好的LSTM时，你会发现门的值绝大多数都非常接近0或者1，其余的值少之又少。其中 $\otimes$ 是LSTM最重要的门机制，表示 $f_t$ 和 $C_{t-1}$ 之间的单位乘的关系。
在这里插入图片描述
其中： $f_t=\sigma(W_f.[h_{t-1},x_t]+b_f)$

3、输入门

如下图所示， $\widetilde{C}_t$ 表示单元状态更新值，由输入数据 $x_t$ 和隐节点 $h_{t-1}$ 经由一个神经网络层得到，单元状态更新值的激活函数通常使用 $t a n h$ 。 $i_t$ 叫做输入门，同 $f_t$ 一样也是一个元素介于 $[0 - 1]$ 区间内的向量，同样由 $x_t$ 和 $h_{t-1}$ 经由 $s i g m o i d$ 激活函数计算而成。

在这里插入图片描述
其中： $i_t=\sigma(W_i.[h_{t-1},x_t]+b_i)$ $\widetilde{C}_t=tanh(W_C.[h_{t-1},x_t]+b_C)$

$i_t$ 用于控制 $\widetilde{C}_t$ 的哪些特征用于更新 $C_t$ ，使用方式和 $f_t$ 相同（如下图）。
在这里插入图片描述

4、输出门

最后，为了计算预测值 $\hat{y}_t$ 和生成下个时间片完整的输入，我们需要计算隐节点的输出 $h_t$ （如下图）。
在这里插入图片描述
其中： $o_t=\sigma(W_o.[h_{t-1},x_t]+b_o)$ $h_t=o_t.tanh(C_t)$
$h_t$ 由输出门 $o_t$ 和单元状态 $C_t$ 得到，其中 $o_t$ 的计算方式和 $f_t$ 以及 $i_t$ 相同。