Seq2Swq之LSTM和GRU

最新推荐文章于 2023-02-21 00:12:57 发布

以python追时间

最新推荐文章于 2023-02-21 00:12:57 发布

阅读量469

点赞数

文章标签：自然语言处理神经网络机器学习深度学习

本文链接：https://blog.csdn.net/weixin_43407473/article/details/104860527

版权

在了解 Seq2Seq 的结构前我们必须先要知道什么是 LSTM、GRU，以便我们更好的理解 Encoder、Decoder 的理解

LSTM 的全称是 Long Short Term Memory Network，又叫做长短时记忆网络，必须明确的是它是一种特殊的 RNN 结构，那么它与标准的 RNN结构区别在哪呢？让我们来看一下标准的 RNN 结构:

由上图中可以看到，传统的 RNN 结构非常的简单，中间只有一个 tanh 层，这样会导致对上一个单元的记忆效果并不是非常的理想，因此，在此基础上诞生了一种更复杂的结构，以便能够更多的记住上一个单元的信息，LSTM 的结构如下：

为了更好的理解，我们定义一下图中各个符号的含义：

LSTM 的核心是细胞的状态，用穿过细胞的水平线来表示，图中绿色的图表示一个细胞(cell)

细胞的状态是指记录了到目前为止所有更新的上下文， $C_{t-1}$ 表示前一个状态，在输入后会经过遗忘或添加新的内容，最终会输出一个新的状态 $C_t$ 近而进入到一个新的细胞(cell) 中，因为整个细胞中只存在着少量的交互信息，因此大量的信息还是直接传送过去的

在整个过程中，我们是通过一种叫做门（gate）的结构来实现对信息的删除和新增的，从而选择性的让信息通过，实质上是一个 sigmoid 的神经层和一个点乘操作的组合，如图：

因为 sigmoid $\in [0, 1]$ ，这代表着有多少信息可以通过，0 表示不能通过，1则表示通过

LSTM 的第一步就决定了细胞状态中需要丢弃哪些信息，是通过 sigmoid 来实现的，通过查看 $h_{t-1}$ 和 $x_t$ 中的信息从而输出一个 0-1 之间的向量来表示哪些信息需要丢弃，哪些信息需要保留，0表示丢弃，1表示保留

这一步表示了需要在细胞状态中添加的新信息，此处分为二个部分：

第一部分决定需要添加哪些信息，并更新原有矩阵，sigmoid 决定要添加哪些信息，tanh 则得到一个候选的更新信息

第二部分：添加新的细胞信息，在 $C_{t-1}$ 通过遗忘门丢弃一部分信息后，再通过输入门添加候选信息 $\tilde{C_t}$ 的一部分得到新的细胞状态 $C_t$

最终，我们确定要输出的信息，首先用 sigmoid 来确定哪些信息要输出，再与 tanh (值在 -1 到 1之间) 处理过的 $C_t$ 信息进行相乘，最终得到我们确定要输出的部分

以上即为 LSTM 的整个过程，需要注意以下二点：

GRU 为 LSTM 的变体，即保持了 LSTM 的特性，还使结构更加的简单

GRU 共分为二个门：更新门和重置门。更新门用于控制前一时刻的状态信息代入到当前状态的过程，值越大，说明代入信息越多，重置门表示忽略前一时刻状态信息的程度，值越小说明忽略信息越多

关注