NLP基础笔记——图解LSTM和GRU

一、LSTM(Long-Short-Term-Memories)

LSTM由输入门,遗忘门,输出门和一个cell组成。

第一步是决定从cell状态中丢弃什么信息,然后在决定有多少新的信息进入到cell状态中,最终基于目前的cell状态决定输出什么样的信息。

LSTM单元结构图及其公式

1、计算遗忘门,选择要遗忘的信息。

输入:前一时刻的隐层状态,当前时刻的输入词 

输出:遗忘门的值

2、计算输入门,选择要记忆的信息。

输入:前一时刻的隐层状态,当前时刻的输入词 

输出:输入门的值,临时细胞状态

3、计算当前时刻细胞状态

输入:输入门的值,遗忘门的值,临时细胞状态,上一刻细胞状态

输出:当前时刻细胞状态

4、计算输出门和当前时刻隐层状态

输入:前一时刻的隐层状态,当前时刻的输入词 ,当前时刻细胞状态

输出:输出门的值,隐层状态

5、最终,我们可以得到与句子长度相同的隐层状态序列{, ..., }。

二、GRU(Gated Recurrent Units)

GRU由重置门和更新门组成,其输入为前一时刻隐藏层的输出和当前的输入,输出为下一时刻隐藏层的信息。

  • 重置门用来计算候选隐藏层的输出,其作用是控制保留多少前一时刻的隐藏层。

  • 更新门的作用是控制加入多少候选隐藏层的输出信息,从而得到当前隐藏层的输出。

GRU单元结构图及其公式

三、知识点

1、LSTM和GRU的区别?

  • GRU和LSTM的性能在很多任务上不分伯仲。
  • GRU 参数更少因此更容易收敛,但是数据集很大的情况下,LSTM表达性能更好。
  • 从结构上来说,GRU只有两个门(update和reset),LSTM有三个门(forget,input,output),GRU直接将hidden state 传给下一个单元,而LSTM则用memory cell 把hidden state 包装起来。

2、LSTM如何来避免梯度弥散和梯度爆炸?(知乎)

  • LSTM只能避免RNN的梯度消失(gradient vanishing);
  • 梯度爆炸(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(tf.clip_by_norm函数,如果梯度的范数大于某个给定值,将梯度同比收缩)。

RNN 中的梯度消失/梯度爆炸和普通的 MLP 或者深层 CNN 中梯度消失/梯度爆炸的含义不一样。

  • MLP/CNN 中不同的层有不同的参数,各是各的梯度;而 RNN 中同样的权重在各个时间步共享,最终的梯度 g = 各个时间步的梯度 g_t 的和。
  • 综上所述原因,RNN 中总的梯度是不会消失的。即便梯度越传越弱,那也只是远距离的梯度消失,由于近距离的梯度不会消失,所有梯度之和便不会消失
  • RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系

RNN梯度消散的本质原因说起:

  • 由于时间维度共享了参数矩阵,导致计算隐态 ht 时会循环计算矩阵乘法,所以BPTT算法求解梯度时出现了参数矩阵的累乘 。

LSTM解决问题的本质:

  • 引入了gate机制,把矩阵乘法变成了element-wise的哈达马积(逐位相乘)。
  • 特别地这样做之后,记忆状态 Ct 更新公式变为(下图),这样的方式本质上类似Highway Network 或者ResNet(残差连接),使得梯度的信息可以“贯穿”时间线,缓解梯度消散。

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

https://www.zhihu.com/question/29411132/answer/65577301

3、LSTM的参数量

有100个句子,其中一个句子有8个词,然后所有的句子都被padding成20个,每个词的向量维度是128维,那么:

1.)lstm的cell就有20个 ?是

  • 在深度学习网络框架中,一个lstm cell指的是一层的LSTM,所以按照这个理解,该网络的lstm cell数量为time-step。所以lstm的cell就有20个。

2) lstm的unit=128 ?不一定

3)那超参数有多少个呢?(因为未指定Vocab size,不便计算结果)

  • 你指的LSTM参数应该指包括embedding层的整个网络的参数的数量。LSTM的参数计算公式
num(Embedding) + num(LSTM) =
(Word embedding dim * Vocab size) 
+ 4* (hidden size * (hidden size + x_dim ) + hidden size)

其中

  • cell的units_num(又称hidden size或output size)
  • Word embedding dim (又称x_dim)

4)100这个值又对应的lstm这个函数的哪个参数呢?

  • 100为样本的数量,和LSTM的参数没有对应关系。

5)输出的维度是自己定的吗,还是由哪个参数定的呢?

  • 一个(一层)LSTM cell输出的维度大小即output size(hidden size),具体需要你在代码中设置。如:LSTM_cell(unit=128)。
  • 在Pytorch中为hiddensize,在tensorflow中为num_units。

https://www.zhihu.com/question/268956632

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值