长短期记忆(LSTM)相关知识

最新推荐文章于 2024-01-04 17:30:39 发布

VariableX

最新推荐文章于 2024-01-04 17:30:39 发布

阅读量1.6k

点赞数 1

分类专栏：深度学习相关文章标签： lstm 深度学习算法

本文链接：https://blog.csdn.net/VariableX/article/details/106462673

版权

文章目录

LSTM结构
LSTM小结
- 如何实现长期依赖？
- 如何避免梯度消失/爆炸？
双向LSTM(Bi-LSTM)
GRU

上一篇文章中，提到RNN难以学习到长期依赖关系，后来有人提出了RNN的改进版本LSTM很大程度上改善了长期依赖问题。

长期依赖在序列数据中是很常见的，考虑到下面这句话“I grew up in France… I speak fluent French.”，现在需要语言模型通过现有以前的文字信息预测该句话的最后一个词，模型结构的可能如下图所示：

在这里插入图片描述

需要通过以前文字语境来预测出最后一个词是French，则需要依赖于开头部分语境中的单词France。LSTM可以很容易的学习到这种长期依赖，这得益于其内部三个特殊的门结构。

LSTM结构

RNN结构如下图所示：

在这里插入图片描述

LSTM基于RNN，做出了些调整，修改后的结构如图所示：

在这里插入图片描述

很明显可以看到两个区别，一方面是细胞单元内部的结构变复杂了，另一方面相邻细胞单元之间的依赖关系从一个变为了两个。

具体来说，LSTM使用上图中三个黄色σ方框（σ代表Sigmoid运算）代表的遗忘门、输入门和输出门来控制细胞状态。

遗忘门

遗忘门控制前一步记忆单元中的信息以多大程度被遗忘掉，主要决定决定细胞状态 C 需要丢弃哪些信息。遗忘门在细胞单元中的位置，如下图黄色方框所示：

在这里插入图片描述

其中遗忘门的输出结果 $f$ 的计算公式为：
$f_t=\sigma(W_f\cdot[h_{t-1},\;x_t]+b_f)$
式子中： $W_f$ 是遗忘门的权重矩阵， $h_{t-1},\;x_t]$ 表示把两个向量连接成一个更长的向量， $b_f$ 是遗忘门的偏置项， $\sigma$ 表示Sigmoid函数，最终得到一个介于0与1之间的输出值。

其中 $W_f\cdot[h_{t-1},\;x_t]+b_f$ 可以理解为：
$\begin{aligned} \begin{bmatrix}W_f\end{bmatrix}\begin{bmatrix}\mathbf{}h_{t-1}\\ \mathbf{}x_t\end{bmatrix}&= \begin{bmatrix}W_{fh}&W_{fx}\end{bmatrix}\begin{bmatrix}\mathbf{}h_{t-1}\\ \mathbf{}x_t\end{bmatrix}\\ &=W_{fh}\mathbf{}h_{t-1}+W_{fx}\mathbf{}x_t \end{aligned}$

最低0.47元/天解锁文章

VariableX

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
长短期记忆(LSTM)相关知识

文章目录LSTM结构遗忘门输入门决定给细胞状态C添加哪些新的信息更新旧的细胞信息输出门LSTM小结如何实现长期依赖？如何避免梯度消失/爆炸？双向LSTM(Bi-LSTM)GRU上一篇文章中，提到RNN难以学习到长期依赖关系，后来有人提出了RNN的改进版本LSTM很大程度上改善了长期依赖问题。长期依赖在序列数据中是很常见的，考虑到下面这句话“I grew up in France… I speak fluent French.”，现在需要语言模型通过现有以前的文字信息预测该句话的最后一个词，模型结构的可能
复制链接

扫一扫

专栏目录