RNN,GRU,LSTM及其变种详解

最新推荐文章于 2024-09-22 16:47:04 发布

lankuohsing

最新推荐文章于 2024-09-22 16:47:04 发布

阅读量971

点赞数

分类专栏：理论学习学习笔记文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/THUChina/article/details/105781118

版权

学习笔记同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

文章目录

1. 前馈神经网络的缺点
2. RNN的基本结构与数学定义
3. GRU(Gated Recurrent Unit)
4 LSTM(Long Short-Term Memory)
4.1. peephole连接
- 4.2 projection
5. RNN的反向传播
5. RNN实战技巧
- 5.1. 对梯度的范围进行限制
- 5.2. 对输出值进行采样

参考Coursera-Sequence Models
https://www.coursera.org/learn/nlp-sequence-models/notebook/X20PE/building-a-recurrent-neural-network-step-by-step

1. 前馈神经网络的缺点

对于输入向量中个分量的位置信息不感知，也即无法利用序列型输入特征向量中的位置信息（将个分量调换顺序最后训练出的模型是等价的），但是在实际的任务中，各分量是有先后关系的。例如，我们在理解一段文本时，孤立地理解每个字或者词是不够的，还要将它们作为一个整体的序列来理解。

2. RNN的基本结构与数学定义

RNN的输入数据，一般有三个维度：batch大小，时间长度，特征维数。TensorFlow中的RNN层API的输入数据shape为[batch, timesteps, feature]。因为本节的图片来自Andrew NG的Coursera公开课中的例子，因此这里的RNN输入数据形状将以Andrew NG的习惯为例，这不影响原理的讲解。输入层的维数是 $n_x,m,T_x)$ ,其中 $n_x$ 是每个训练样本的维数； $m$ 是一个batch的大小； $T_x$ 是输入序列的长度。

输出层的维数是 $n_y,m,T_y)$ ,其中 $n_y$ 是输出预测向量的维数； $m$ 是一个batch的大小； $T_y$ 是输出序列的长度。

我们先研究输入向量和输出向量相等，即 $n_x=n_y$ 的情况，结构图如下所示（图片来源https://www.coursera.org/learn/nlp-sequence-models/notebook/X20PE/building-a-recurrent-neural-network-step-by-step）。
在这里插入图片描述

图2.1 RNN基本结构-输入输出维数相等

上下标说明： $a_5^{(2)[3]<4>}$ 表示第2个训练样本，第3层，第4个时刻，激活函数输出向量的第5维。
在这里插入图片描述

图2.2 RNN的一个基本单元

注意，输出 $\hat y$ 是状态向量 $a$ 经过线性变换再经过softmax变换得到的。

$\begin{aligned} a^{\langle t\rangle}&=tanh\left(W_{ax}x^{\langle t\rangle}+W_{aa}a^{\langle t-1\rangle}+b_a\right)\\ \hat y^{\langle t\rangle}&=softmax\left(W_{ya}a^{\langle t\rangle}+b_y\right)\\ \tag{2-1} \end{aligned}$

3. GRU(Gated Recurrent Unit)

GRU的提出是为了解决RNN难以学习到输入序列中的长距离信息的问题。
GRU引入一个新的变量——记忆单元，简称 $C$ 。 $C^{\langle t\rangle}$ 其实就是 $a^{\langle t\rangle}$
$C$ 的表达式不是一步到位的，首先定义 $C$ 的候选值 $\tilde C$ :
$\tilde C^{\langle t\rangle}=tanh\left(W_c[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)$
更新门：
$\Gamma_u=\sigma\left(W_u[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)$
在实际训练好的网络中 $\Gamma$ 要么很接近1要么很接近0，对应着输入序列里面有些元素起作用有些元素不起作用。
$C^{\langle t\rangle}=\Gamma_u*\tilde C^{\langle t\rangle}+（1-\Gamma_u）* C^{\langle t-1\rangle}$

也即输入序列的有些元素，记忆单元不需要更新，有些元素需要更新。

The cat, which already ate …, was full
cat后面的词直到was之前，都不需要更新 $C$ ,直接等于cat对应的 $C$
可以解决梯度消失的问题.输出层的梯度可以传播到cat处

注： $C$ 和 $\Gamma$ 都可以是想聊，它们在相乘时采用的是element-wise的乘法。当为向量时，与cat的单复数无关的词对应的 $\Gamma$ 可能有些维度为零，有些维度不为零。为零的维度，是用来保留cat的单复数信息的；不为零的维度可能是保留其他语义信息的，比如是不是food呀之类的
目前讨论的是简化版的GRU，结构图如下
在这里插入图片描述

完整的GRU：

$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[\Gamma_r*C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_r&=\sigma\left(W_r[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_r\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+（1-\Gamma_u）* C^{\langle t-1\rangle}\\ a^{\langle t\rangle}&=C^{\langle t\rangle}\\ \tag{3-1} \end{aligned}$
$\Gamma_r$ 表示了 $\tilde C^{\langle t\rangle}$ 和 $C^{\langle t-1\rangle}$ 之间的相关程度

4 LSTM(Long Short-Term Memory)

没有了 $\Gamma_r$ ，将 $1-\Gamma_u$ 用 $\Gamma_f$ 代替
$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_f&=\sigma\left(W_f[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_f\right)\\ \Gamma_o&=\sigma\left(W_o[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_o\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+\Gamma_f* C^{\langle t-1\rangle}\\ a^{\langle t\rangle}&=\Gamma_o*tanh\left(C^{\langle t\rangle}\right)\\ \tilde y^{\langle t\rangle}&=softmax(a^{\langle t\rangle})\\ \tag{4-1} \end{aligned}$
(注意公式里面的 $\Gamma_u$ 等价于图片中的 $\Gamma_i$ )
在这里插入图片描述

图4.1 LSTM的一个基本单元

在这里插入图片描述

图4.2 标准LSTM模型-输入维数等于输出维数]

4.1. peephole连接

在这里插入图片描述

图4.3 LSTM变种-peephole

$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[a^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[c^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_f&=\sigma\left(W_f[c^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_f\right)\\ \Gamma_o&=\sigma\left(W_o[c^{\langle t\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_o\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+\Gamma_f* C^{\langle t-1\rangle}\\ a^{\langle t\rangle}&=\Gamma_o*tanh\left(C^{\langle t\rangle}\right)\\ \tilde y^{\langle t\rangle}&=softmax(a^{\langle t\rangle})\\ \tag{4-2} \end{aligned}$

4.2 projection

对隐藏层状态a进行一次线性变换，降低其维数
$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[a^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[c^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_f&=\sigma\left(W_f[c^{\langle t-1\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_f\right)\\ \Gamma_o&=\sigma\left(W_o[c^{\langle t\rangle},a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_o\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+\Gamma_f* C^{\langle t-1\rangle}\\ a_0^{\langle t\rangle}&=\Gamma_o*tanh\left(C^{\langle t\rangle}\right)\\ a^{\langle t\rangle}&=W_{proj}a_0^{\langle t\rangle}+b_{proj}\\ \tilde y^{\langle t\rangle}&=softmax(a^{\langle t\rangle})\\ \tag{4-3} \end{aligned}$