NLP基础笔记——图解LSTM和GRU

最新推荐文章于 2024-08-10 16:48:52 发布

NLP_victor

最新推荐文章于 2024-08-10 16:48:52 发布

阅读量1.9k

点赞数 1

分类专栏： NLP 文章标签： NLP RNN LSTM GRU

本文链接：https://blog.csdn.net/IOT_victor/article/details/88934316

版权

NLP 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

一、LSTM（Long-Short-Term-Memories）

LSTM由输入门,遗忘门,输出门和一个cell组成。

第一步是决定从cell状态中丢弃什么信息，然后在决定有多少新的信息进入到cell状态中，最终基于目前的cell状态决定输出什么样的信息。

LSTM单元结构图及其公式

1、计算遗忘门，选择要遗忘的信息。

输入：前一时刻的隐层状态，当前时刻的输入词

输出：遗忘门的值

2、计算输入门，选择要记忆的信息。

输入：前一时刻的隐层状态，当前时刻的输入词

输出：输入门的值，临时细胞状态

3、计算当前时刻细胞状态

输入：输入门的值，遗忘门的值，临时细胞状态，上一刻细胞状态

输出：当前时刻细胞状态

4、计算输出门和当前时刻隐层状态

输入：前一时刻的隐层状态，当前时刻的输入词，当前时刻细胞状态

输出：输出门的值，隐层状态

5、最终，我们可以得到与句子长度相同的隐层状态序列{, , ..., }。

二、GRU（Gated Recurrent Units）

GRU由重置门和更新门组成,其输入为前一时刻隐藏层的输出和当前的输入,输出为下一时刻隐藏层的信息。

重置门用来计算候选隐藏层的输出,其作用是控制保留多少前一时刻的隐藏层。

更新门的作用是控制加入多少候选隐藏层的输出信息,从而得到当前隐藏层的输出。

GRU单元结构图及其公式

三、知识点

1、LSTM和GRU的区别？

GRU和LSTM的性能在很多任务上不分伯仲。
GRU 参数更少因此更容易收敛，但是数据集很大的情况下，LSTM表达性能更好。
从结构上来说，GRU只有两个门（update和reset），LSTM有三个门（forget，input，output），GRU直接将hidden state 传给下一个单元，而LSTM则用memory cell 把hidden state 包装起来。

2、LSTM如何来避免梯度弥散和梯度爆炸？（知乎）

LSTM只能避免RNN的梯度消失（gradient vanishing）；
梯度爆炸(gradient explosion)不是个严重的问题，一般靠裁剪后的优化算法即可解决，比如gradient clipping（tf.clip_by_norm函数，如果梯度的范数大于某个给定值，将梯度同比收缩）。

RNN 中的梯度消失/梯度爆炸和普通的 MLP 或者深层 CNN 中梯度消失/梯度爆炸的含义不一样。

MLP/CNN 中不同的层有不同的参数，各是各的梯度；而 RNN 中同样的权重在各个时间步共享，最终的梯度 g = 各个时间步的梯度 g_t 的和。
综上所述原因，RNN 中总的梯度是不会消失的。即便梯度越传越弱，那也只是远距离的梯度消失，由于近距离的梯度不会消失，所有梯度之和便不会消失。
RNN 所谓梯度消失的真正含义是，梯度被近距离梯度主导，导致模型难以学到远距离的依赖关系。

从RNN梯度消散的本质原因说起：

由于时间维度共享了参数矩阵，导致计算隐态 ht 时会循环计算矩阵乘法，所以BPTT算法求解梯度时出现了参数矩阵的累乘。

LSTM解决问题的本质：

引入了gate机制，把矩阵乘法变成了element-wise的哈达马积（逐位相乘）。
特别地这样做之后，记忆状态 Ct 更新公式变为（下图），这样的方式本质上类似Highway Network 或者ResNet（残差连接），使得梯度的信息可以“贯穿”时间线，缓解梯度消散。

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

https://www.zhihu.com/question/29411132/answer/65577301

3、LSTM的参数量

有100个句子，其中一个句子有8个词，然后所有的句子都被padding成20个，每个词的向量维度是128维，那么：

1.）lstm的cell就有20个？是

在深度学习网络框架中，一个lstm cell指的是一层的LSTM，所以按照这个理解，该网络的lstm cell数量为time-step。所以lstm的cell就有20个。

2） lstm的unit=128 ？不一定

3）那超参数有多少个呢？（因为未指定Vocab size，不便计算结果）

你指的LSTM参数应该指包括embedding层的整个网络的参数的数量。LSTM的参数计算公式

num(Embedding) + num(LSTM) =
（Word embedding dim * Vocab size） 
+ 4* (hidden size * (hidden size + x_dim ) + hidden size)

其中

cell的units_num（又称hidden size或output size）
Word embedding dim (又称x_dim)

4）100这个值又对应的lstm这个函数的哪个参数呢？

100为样本的数量，和LSTM的参数没有对应关系。

5）输出的维度是自己定的吗，还是由哪个参数定的呢？

一个（一层）LSTM cell输出的维度大小即output size(hidden size),具体需要你在代码中设置。如：LSTM_cell(unit=128)。
在Pytorch中为hiddensize，在tensorflow中为num_units。

https://www.zhihu.com/question/268956632

NLP_victor

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录