CS224N笔记(三) Lecture 6~7：深入理解循环神经网络RNN模型

最新推荐文章于 2024-07-04 00:13:28 发布

置顶 faith_0904

最新推荐文章于 2024-07-04 00:13:28 发布

阅读量473

点赞数 6

分类专栏：自然语言处理深度学习学习笔记文章标签：深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/nuohuang3371/article/details/111655422

版权

学习笔记同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

自然语言处理

7 篇文章 1 订阅

订阅专栏

深度学习

7 篇文章 2 订阅

订阅专栏

本文深入探讨循环神经网络（RNN）的基础结构，训练与优化过程，特别是梯度计算，以及梯度消失和梯度爆炸问题。RNN因其能够处理不定长序列并捕捉长时依赖而备受关注，但梯度消失是其主要挑战。文中还介绍了RNN在词性标注、文本分类和生成任务中的应用。

摘要由CSDN通过智能技术生成

本文将从语言模型的概念出发，引出循环神经网络RNN的概念，对RNN的结构进行描述，详细推导了梯度计算过程，并解释RNN容易出现梯度消失、梯度爆炸的原因。文章的最后对RNN的应用场景进行了简单的介绍。

一、背景知识

1. 语言模型

在讲解循环神经网络RNN之前，先来回顾一下什么是统计语言模型，之前说到统计语言模型就是用以计算一个句子的概率的模型，简而言之就是判断一句话“是不是正常人说的”，常常会挖空语料中的某些位置，要求预测该位置填什么词最合适。其模型可以归结为：

$p(W)=p(w_1^T)=p(w_1,w_2,...,w_T)=p(w_1) \cdot p(w_2|w_1) \cdot p(w_3|w_1^2) \dots p(w_T|w_1^{T-1})$

上面这条公式中，W表示一个句话，它是由单词 $w_1,w_2,...,w_T$ 按顺序排列而构成的，再次强调见到 $w_1^T$ 不要认为是T幂次，它就是表示首单词为 $w_1$ ，长度为T，末尾单词为 $w_T$ 的一句话。

2.n-gram

上面的公式其实可以表示一切语言模型，如果我们是以统计信息来构建模型，那么就叫做统计语言模型，比如n-gram，其表述形式为：

$p(w_k|w_1^{k-1})\approx\frac{count(w_1^k)}{count(w_1^{k-1})}$

在深度学习未应用与NLP时，n-gram模型是非常流行的，但它存在以下问题

稀疏性问题：随着n增大，语料库中出现特定的连续词语组合的可能性会越小，看你从词表中找不到特定的连续词语组合。
存储问题：需要存储一个非常大的共现矩阵，且还会随着n增大而增大。
n-gram通常无法捕捉深层的语义信息。

3. 固定窗口神经语言模型

为了解决这一问题，提出了固定窗口神经语言模型，它是通过将一个窗口内的词语的词向量拼接起来，送入全连接神经网络，最后通过softmax函数预测概率。这里的词向量one-hot，但其实用word2vec的词向量应该也是可以的。

在这里插入图片描述

这一模型的好处在于：

不存在稀疏性问题
不需要存储所有的n-gram

但是它也有缺点：

固定窗口不能太小也不能太大，太小捕捉不到上下文信息，太大拼接的向量会异常大，对机器要求很高。
虽说每个词向量拼接在了一起，但是它们分别对应参数矩阵W的一条向量，参数不共享。这样不一定合理，因为它们其实都在做一件事，我们希望参数具有泛化性，对任意位置的处理是一致。
窗口大小是固定的，一旦确定不能更改。

二、基本结构

上面说了固定窗口神经语言模型的不足之处，我们希望找到了一个更强大的模型，它应当具备以下特定：

不受窗口限制，能够处理不定长的输入
对于每一个位置上的词都可以用同一套参数进行处理

循环神经网络可以满足以上要求，它的模型结构如下：

在这里插入图片描述

模型的真正输入是各个词的词向量，模型中有一个隐状态 $h$ ，输出是预测词的概率 $\hat{y}$ 。模型的参数为输入层 $W_e$ 、隐含层 $W_h$ 、输出层 $U$ ，注意 $E$ 不算是可学习参数，它负责从将词的one-hot向量映射到词向量，本质上是个查表的工作，相当于tensorflow中tf.embedding_lookup操作。

词向量依次送入到模型中，每个词向量 $e$ 在模型中首先和输入层 $W_e$ 相乘，再加上另一条支路上隐状态 $h$ 与隐含层 $W_h$ 的相乘结果，然后再加上一个偏置 $b$ ，最终的和送入非线性激活函数 $\sigma$ ；输出的结果作为新的隐状态传递下去，参与下一轮计算，在下一轮的计算是以下一个词向量作为输入，以此不断循环，最终将隐状态 $h$ 与输出矩阵相乘，加上偏置后进行softmax计算，输出概率值。

这里每一轮计算的参数 $W_e$ 、 $W_h$ 、 $U$ 是一样的，中间的隐状态 $h^{(1)}$ 、 $h^{(2)}$ 、 $h^{(3)}$ 如有需要也是可以输出，每一轮都输出一个结果，且这个循环可以一直进行下去，尽管实际操作中不会让它一直循环下去，因为会遇到别的问题——计算量巨大、梯度消失。

三、训练与优化

1. 损失函数

在这里插入图片描述

在RNN的训练过程中，每一轮都会计算损失函数 $J^{(1)}(\theta)$ 、 $J^{(2)}(\theta)$ 、 $J^{(3)}(\theta)$ 、 $J^{(4)}(\theta)$ ，最后将他们相加得到最终的损失函数：

$J(\theta) = \frac{1}{T}\sum_{t=1}^TJ^{(t)}(\theta)$

每一轮的损失函数 $J^{(t)}(\theta)$ 均采用交叉熵函数，即：

$J^{(t)}(\theta) = CE(y^{(t)},\hat{y}^{(t)}) = -\sum_{w \isin V}\ y_w^{(t)}log\hat{y}_w^{(t)} = -log\ \hat{y}_w^{(t)}$

其中 $y^{(t)}$ 表示真实值，它是 $x^{(t+1)}$ 所对应的one-hot向量，我们希望输入 $t$ 时刻前的词，能预测得到 $t + 1$ 时刻的词。

2. 梯度计算

接下来思考怎么计算梯度进行反向传播，这是RNN中的一个难点中的难点，这里课堂上讲得不是很清晰，补充材料notes里的符号又和课件slides里的不一致，很容易让人迷惑，因此下面我会根据课件和补充材料中内容，重新组织语言进行讲解，不完全遵循课件和补充材料中的顺序和符号。

根据前面的损失函数：

$J(\theta) = \frac{1}{T}\sum_{t=1}^TJ^{(t)}(\theta) \tag{1}$

很容易可以得到它关于W_h的梯度：

$\frac{\partial J}{\partial W_h} = \frac{1}{T}\sum_{t=1}^T \frac{\partial J^{(t)}}{\partial W_h} \tag{2}$

现在问题来了，那么 $t$ 时刻的梯度 $\frac{\partial J^{(t)}}{\partial W_h}$ 应该怎么计算？结论很简单，它等于 $J^{(t)}$ 在1～ $t$ 时刻关于 $W_h$ 的梯度之和，即：

$\frac{\partial J^{(t)}}{\partial W_h} = \sum_{i=1}^t \frac{\partial J^{(t)}}{\partial W_h} \bigg| _{i} \tag{3}$

右边每个求和项的下标 $i$ 指的是第 $i$ 个时刻或者第 $i$ 轮，即 $J^{(t)}$ 对第 $i$ 个时刻的 $W_h$ 的梯度。这个公式是怎么来的呢？由于 $J^{(t)}$ 与 $t$ 时刻前每个时刻的参数矩阵 $W_h|_1 、 W_h|_2 、 ... 、 W_h|_t$ 都有关，根据多元函数的链式法则，可以得到下面式子：

$\frac{\partial J^{(t)}}{\partial W_h} = \sum_{i=1}^t \frac{\partial J^{(t)}}{\partial W_h} \bigg| _{i} \frac{\partial W_h|_i}{\partial W_h} = \sum_{i=1}^t \frac{\partial J^{(t)}}{\partial W_h} \bigg| _{i} \times 1 \tag{4}$

这条式子怎么来的？首先要明确，RNN在训练时对一段语料进行前向传播，如果语料长度为 $T$ 就会经历了 $T$ 个时刻，之后再将每个时刻 $t$ 的损失叠加起来求梯度反向传播， $t = 1 ～ T$ 时刻内，参数矩阵是一直没有更新的，也即是同一个矩阵 $W_h$ 。那么 $i = 1 ～ t$ 时刻内，因为它们是 $1$ $～$ $T$ 内的一个子时段，参数矩阵 $W_h|_i$ 肯定一直不变的，也即 $W_h|_1 = W_h|_2 = ... = W_h|_t = W_h$ ，因此 $\frac{\partial W_h|_i}{\partial W_h}=1$ ，第二项可以被忽略掉。

现在问题转化为 $\frac{\partial J^{(t)}}{\partial W_h} \bigg| _{i}$ 要怎么计算？这个就比较复杂了，这里需要用到链式法则：

$\frac{\partial J^{(t)}}{\partial W_h} \bigg| _{i} = \frac{\partial J^{(t)}}{\partial \hat{y}^{(t)}} \frac{\partial \hat{y}^{(t)}}{\partial h^{(t)}} \frac{\partial h^{(t)}}{\partial h^{(i)}} \frac{\partial h^{(i)}}{\partial W_h|_i}$

上面提到说 $W_h|_i = W_h$ ，因此下面就都简写成 $W_h$ ，上面的式子可以写作：

这个公式中第1、2、4项都很容易求得，关键是第三项 $\frac{\partial h^{(t)}}{\partial h^{(i)}}$ 应该怎么求？我们还是可以用链式法则拆开它，但可以注意到它是与时刻 $i$ 有关的，可以想象当 $i = t - 1$ ，那就向前追溯1个时刻，当 $i = t - 2$ 时，要向前追溯2个时刻，以此类推， $i = 1$ 的话要向前追溯两个时刻，也即 $\frac{\partial h^{(t)}}{\partial h^{(i)}}$ 需要向前追溯 $(t - i)$ 个时刻，写成公式的话可以表示成：

$\frac{\partial h^{(t)}}{\partial h^{(i)}} = \prod_{j=i+1}^t \frac{\partial h^{(j)}}{\partial h^{(j-1)}} \tag{6}$

至此，损失 $J$ 对 $W_h$ 的梯度可以写成：
$\begin{aligned} \frac{\partial J}{\partial W_h} &= \frac{1}{T}\sum_{t=1}^T \frac{\partial J^{(t)}}{\partial W_h} \\ &= \frac{1}{T}\sum_{t=1}^T\sum_{i=1}^t \frac{\partial J^{(t)}}{\partial W_h} \bigg|_{i}\\ &=\frac{1}{T}\sum_{t=1}^T\sum_{i=1}^t \frac{\partial J^{(t)}}{\partial \hat{y}^{(t)}} \frac{\partial \hat{y}^{(t)}}{\partial h^{(t)}} \frac{\partial h^{(t)}}{\partial h^{(i)}} \frac{\partial h^{(i)}}{\partial W_h} \\ &=\frac{1}{T}\sum_{t=1}^T\sum_{i=1}^t (\frac{\partial J^{(t)}}{\partial \hat{y}^{(t)}} \frac{\partial \hat{y}^{(t)}}{\partial h^{(t)}} (\prod_{j=i+1}^t \frac{\partial h^{(j)}}{\partial h^{(j-1)}} )\frac{\partial h^{(i)}}{\partial W_h}) \end{aligned} \tag{7}$
接下来其实可以继续追问 $\frac{\partial h^{(j)}}{\partial h^{(j-1)}}$ 怎么求解，我们回顾之前的图示：

在这里插入图片描述

从图中我们可以得知 $h^{(j)}$ 和 $h^{(j-1)}$ 具有直接关系：

$h^{(j)} = \sigma(W_hh^{(j-1)}+W_ee^{(t)} + b_1) \tag{8}$

则它们间的梯度也很容易求得：

$\frac{\partial h^{(j)}}{\partial h^{(j-1)}} = diag(\sigma'(W_hh^{(j-1)}+W_ee^{(t)} + b_1)) \times W_h \tag{9}$

其中 $d i a g (*)$ 表示对角矩阵，对角线中的值即为 $*$ ，这条式子在补充材料notes中有些许不同，但是本质上是一致的。

至此，RNN关于W_h的梯度计算就完成了，关于 $W_e$ 的梯度计算也是类似，这里就不再赘述。

3. 梯度消失和梯度爆炸

可以看到 $(7)$ 式相当复杂，最关键的地方是两个不同时间隐状态间的梯度 $\frac{\partial h^{(t)}}{\partial h^{(i)}}$ ，需要从t时刻一直地追溯到i时刻，而且要进行多次这样的追溯。我们结合 $(6)$ 和 $(8)$ 可将 $\frac{\partial h^{(t)}}{\partial h^{(i)}}$ 写做：

$\frac{\partial h^{(t)}}{\partial h^{(i)}} = \prod_{j=i+1}^t \frac{\partial h^{(j)}}{\partial h^{(j-1)}} = \prod_{j=i+1}^t diag(\sigma'(W_hh^{(j-1)}+W_ee^{(t)} + b_1)) \times W_h \tag{10}$

接下来将结合该式子讲述了为什么会RNN特别容易梯度消失和梯度爆炸，CS224N的课件slides和补充材料notes是从两个角度来进行解释的，下面将分别对两者的思路进行讲解，在推导过程中为了保持本文符号的一致性，可能与课件材料有些出入。

课件中的解释：

为了简化问题，我们假设激活函数 $\sigma$ 为恒等映射即 $\sigma(x)=x$ ，则 $\sigma'=1$ ，公式 $(10)$ 可以改写成：

$\frac{\partial h^{(t)}}{\partial h^{(i)}} = \prod_{j=i+1}^t I \times W_h = \prod_{j=i+1}^t W_h = W_h^{t-i} \tag{11}$

也即是矩阵 $W_h$ 连续自乘了 $(t - i)$ 次，由于输入的词向量 $e$ 和隐状态 $h$ 一般都是保持同样的维度，因此 $W_h$ 一定是方阵，不用担心自乘时维度对不上。假设矩阵 $W_h$ 的特征值和特征向量分别为：

$\begin{aligned}\text{特征值:} \ \ \ \lambda_1, \lambda_2,...,\lambda_n \\ \text{特征向量:}\ \ \ q_1,q_2,...,q_n\end{aligned}$

根据线性代数的知识，有：

$W_h = P\Lambda P^{-1}，P是特征向量组成的矩阵，\Lambda是特征值组成的对角矩阵$

进一步可以推出：

$\frac{\partial h^{(t)}}{\partial h^{(i)}}= W_h^{t-i} = P\Lambda^{t-i} P^{-1} \tag{12}$

假设 $W_h$ 的特征值全都小于1，那么一旦两个词相隔越远，或说两个时刻 $(t - i)$ 相隔越长，对角矩阵 $\Lambda^{t-i}$ 上的元素会越乘越小，接近于0，那 $\frac{\partial h^{(t)}}{\partial h^{(i)}}$ 自然也接近于零矩阵，再跟其他的矩阵或向量相乘也会存在大量的零，也就是梯度几乎都为零，这就是梯度消失的原因。反过来，如果说 $W_h$ 的特征值全都大于1，对角矩阵 $\Lambda^{t-i}$ 上的元素会越乘越大，之后其他矩阵内的元素也会变得越来越大，甚至出现NaN值，这就是梯度爆炸的原因。上面在推导前是假设激活函数为恒等映射，但其实换成别的激活函数也一样会出现梯度消失或梯度爆炸，因为公式12中参数矩阵 $W_h$ 的幂次形式依然存在。

补充材料中的讲解

这次从公式 $(6)$ 出发，如果我们考虑矩阵的模，那么从公式 $(10)$ 可以得知：

$||\frac{\partial h^{(j)}}{\partial h^{(j-1)}}|| \le ||diag(\sigma'(W_hh^{(j-1)}+W_ee^{(t)} + b_1))|| \times ||W_h|| \le \beta_W\beta_h\tag{13}$

其中的 $\beta$ 只是对 $||diag(\sigma'(W_hh^{(j-1)}+W_ee^{(t)} + b_1))||$ 和 $W_h||$ 分别进行简写。在这之后，结合公式 $(10)$ ，可以得到

$||\frac{\partial h^{(t)}}{\partial h^{(i)}}|| = ||\prod_{j=i+1}^t \frac{\partial h^{(j)}}{\partial h^{(j-1)}}|| \le (\beta_W\beta_h)^{t-i} \tag{14}$

如果 $\beta_W$ $\beta_h$ 小于1，即 $W_h$ 的模与 $||diag(\sigma'(W_hh^{(j-1)}+W_ee^{(t)} + b_1))||$ 的乘积小于1，那么由于指数项的作用， $||\frac{\partial h^{(t)}}{\partial h^{(i)}}||$ 同样也会变得很小，容易出现梯度消失，相反如果它们大于1，那么 $||\frac{\partial h^{(t)}}{\partial h^{(i)}}||$ 会变得相当大，容易出现梯度爆炸。

这里可以注意到两个细节，一方面，根据线性代数额知识， $W_h$ 的模和它的特征值有密切关系，如果像上面课件中说的那样 $W_h$ 特征值都小于1，那么它的模肯定也很小；另一方面，另外一项 $\beta_h$ 是和激活函数相关的，上面说激活函数不采用恒等映射同样可能出现梯度消失或梯度爆炸，此话没错，但更准确地说，梯度会不会出现问题和激活函数是会存在关系的。为了缓解梯度消失，我们可以选择ReLU激活函数，尽管它相对容易引起梯度爆炸，但是对于梯度爆炸我们好歹有梯度截断方法可以缓解，比起梯度消失更加可控。

还有最后一点需要注意的是，RNN的梯度消失主要是长距离的梯度消失，公式 $(12) 、 (14)$ 的指数项 $(t - i)$ 需要足够大才有明显地梯度消失效应，短距离的梯度还是正常的，而总梯度是包含了长距离和短距离的梯度，所以总梯度并不是完全为0，只是模型参数的更新方向不受长时约束，这样RNN就失去了捕捉更大范围上下文信息的能力。

四、优缺点

相比于统计语言模型以及固定窗口神经语言模型，RNN的优点在于：

可以处理不定长序列
对不同位置的词向量采用同样的参数进行计算，缩减模型参数且增强参数了泛化性
模型的大小与序列长度无关
可以更好地捕捉长时信息

但是其缺点也很明显：

很容易梯度消失，且是致命弱点，普通的RNN对此没有解决办法。梯度消失会造成两个问题：
- 长时约束的作用减弱，模型几乎只受短时约束
- 我们无法分辨是真的没有长距离间的两个词是真的没有联系，还是我们没能捕捉到它们间的联系
很容易梯度爆炸，可以通过梯度截断缓解
- 模型发散，无法学习到有效信息
- 梯度截断的实现