RNN及其梯度分析

W11H08Z

已于 2024-04-27 10:37:30 修改

阅读量804

点赞数 21

分类专栏：动手学深度学习笔记文章标签： rnn 人工智能深度学习

于 2024-04-27 10:34:22 首次发布

本文链接：https://blog.csdn.net/W11H08Z/article/details/138244060

版权

动手学深度学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

RNN及其梯度分析

本文是笔者《动手学深度学习》的学习笔记，如有谬误，请随时指出。

语言模型

对于一个基于历史数据来预测未来数据的任务，一定存在一个前提假设：序列本身的规律是不变的。这是因为，如果规律变化，那么规律一定受到新的数据影响，并且我们不能基于目前的数据来找到新的规律，此时基于历史数据来预测未来数据没有意义。因此，只要我们希望基于历史数据预测未来数据，一定存在序列规律不变这一假设。

假设存在一个文本序列 $x_1, \ldots, x_T$ ，其中 $x_t$ 代表在时间步 $t\in\mathbb{Z}^+$ 时的词元（token）。我们希望基于过去的文本预测 $x_t$ 值，可以采用如下方式
$X_t \sim P(X_t|X_1=x_1, \ldots, X_{t-1}=x_{t-1})$
其中 $X_i$ 为随机变量， $x_i$ 为观测值，故 $x_t$ 可以取值为
$x_t = \arg\max P(X_t=x|X_1=x_1, \ldots, X_{t-1}=x_{t-1})$
此时问题变为了如何估计 $P(X_t|X_1=x_1, \ldots, X_{t-1}=x_{t-1})$ ，为了方便起见删去 $X_i$ ，以下的 $x_i$ 均代表随机变量。根据贝叶斯公式：
$P(x_t|x_1,\ldots, x_{t-1}) = \frac{P(x_1, \ldots, x_t)}{P(x_1, \ldots, x_{t-1})}$
因此我们只需要得到 $P(x_1, \ldots, x_T)$ ，对于任意的 $t < T$ 都可以得到 $P(x_1, \ldots, x_t)$ ，而语言模型的目标正好是估计联合概率
$P(x_1,, \ldots, x_T)$
对于一个理想的语言模型，只要能获得前面的对话片段，即可生成一个有意义的对话。

学习语言模型

那么如何根据一个文档来估计语言模型的联合概率呢？一个基本的概率规则是：
$P(x_1, \ldots, x_T) = \prod_{t=1}^T P(x_t|x_1, \ldots, x_{t-1})$
对于 $P(x_t|x_1, \ldots, x_{t-1})$ 我们可以采用如下方法来估计：
$\hat{P}(x_t|x_1, \ldots, x_{t-1}) = \frac{n(x_1, \ldots, x_t)}{n(x_1, \ldots, x_{t-1})}$
其中 $n(x_1, \ldots, x_t)$ 代表序列 $x_1, \ldots, x_t$ 在文本中出现的次数。此时出现了两个问题：

当序列 $x_1, \ldots, x_t$ 在文本中没有出现时， $P(x_t|x_1, \ldots, x_{t-1})$ 必定为零。这说明了如果采用此种方法，无法产生出文本中没有出现过的文本序列。
当 $T$ 较大时，假设词表长度为 $\mathcal{V}$ ，每个 $x_i$ 都存在 $\mathcal{V}$ 种取值， $x_1, \ldots, x_T$ 则存在 $\mathcal{V}^T$ 种组合，对于每种组合都需要计算 $P(x_1, \ldots, x_T)$ ，此时计算量巨大。

对于第一个问题，我们可以采用拉普拉斯平滑的方式来缓解，具体来说：
$\hat{P}(x_t) = \frac{n(x_t)+\epsilon_1/m}{n+\epsilon_1}\\ \hat{P}(x_t|x_1, \ldots, x_{t-1}) = \frac{n(x_1, \ldots, x_t)+\epsilon_t\hat{P}(x_t)}{n(x_1, \ldots, x_{t-1})+\epsilon_t}$
其中 $m$ 代表词表的长度， $n$ 代表单词总数， $\epsilon_1$ 和 $\epsilon_t$ 均为超参数，当 $\epsilon_1=0$ 时，不使用拉普拉斯平滑；当 $\epsilon\rightarrow\infty$ 时，接近均匀分布。

对于第二个问题，现在有两种策略：

假设 $x_t$ 仅与 $x_{t-1}, \ldots, x_{t-\tau}$ 相关，因此有 $P(x_1, \ldots, x_T) = \prod_{t=1}^TP(x_t|x_1, \ldots, x_{t-\tau})$ 。
使用 $h_t$ 来总结 $x_1, \ldots, x_{t-1}$ 的信息，因此有 $P(x_1, \ldots, x_T) = \prod_{t=1}^TP(x_t|h_t)$ ，其中 $h_t=g(h_{t-1}, x_{t})$ 。

暂时只考虑第一种策略，这种策略又称为 $n$ 元语法。我们从文档中分别采集一元语法（unigram）、二元语法（bigram）和三元语法（trigram）的词频：

从图中可以看出：

第 $i$ 个最常用的单词频率 $n_i$ 与其排名几乎成反比，随着语法词元数增多，曲线放缓。这说明了如果使用拉普拉斯平滑，将会大大高估尾部单词的频率。
词表中的 $n$ 元组存在许多结构。n元语法的种类是指数增长的，会很大，但是大部分出现次数很少，不能当作结构，因此可以设定一个阈值，小于这个阈值的n元组全部丢掉

可以发现， $n$ 元语法中模型参数依然是指数增长的，如果 $n$ 太小没有办法学习到有效的结构，如果 $n$ 太大模型参数量呈指数增长，并且使用 $n$ 元语法常常需要进行拉普拉斯平滑，而拉普拉斯平滑又存在一些缺陷。因此考虑第二种策略。

循环神经网络

从MLP到RNN

考虑只有一个单隐含层的多层感知机（MLP）。令激活函数为 $\phi$ ，给定小批量样本 $\mathbf{X}\in\mathbb{R}^{n\times d}$ ，其中 $n$ 为批量大小， $d$ 为维度，隐藏层的输出为 $\mathbf{H}\in\mathbb{R}^{n\times h}$ ，权重参数 $\mathbf{W}_{xh}\in\mathbb{R}^{d\times h}$ ，偏置参数 $\mathbf{b}_h\in\mathbb{R}^{1\times h}$ ，容易看出隐含层单元数目为 $h$
$\mathbf{H} = \phi(\mathbf{X}\mathbf{W}_{xh}+\mathbf{b}_h)\\ \mathbf{O} = \mathbf{H}\mathbf{W}_{hq}+\mathbf{b}_q$
其中输出变量 $\mathbf{O}\in\mathbb{R}^{n\times q}$ ，权重参数 $\mathbf{W}_{hq}\in\mathbb{R}^{h\times q}$ ，偏执参数 $\mathbf{b}_q\in\mathbb{R}^{1\times q}$ 。对于一个分类问题，对输出做 $\text{softmax}(\mathbf{O})$ 即可，令 $\mathbf{x}\in\mathbb{R}^d$
$\text{softmax}(\mathbf{x}_i) = \frac{\exp(\mathbf{x}_i)}{\sum_{j=1}^d \exp(\mathbf{x}_j)}$
对矩阵 $\mathbf{O}$ 执行 $\text{softmax}(\cdot)$ 操作即对每个行向量作 $\text{softmax}$ 即可。

考虑基于MLP引入隐藏变量 $\mathbf{H}_t$ ，此时 $\mathbf{X}_t$ 代表时间步 $t$ 的小批量输入，根据 $h_t=g(h_{t-1}, x_{t})$ 扩展得出
$\mathbf{H}_t = \phi(\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}+\mathbf{b}_h)\\ \mathbf{O}_t = \mathbf{H}_t\mathbf{W}_{hq}+\mathbf{b}_q$
值得一提的是，即使在不同的时间步，循环神经网络也总是使用这些模型参数。因此，循环神经网络的参数开销不会随着时间步的增加而增加。

困惑度（Perplexity）

困惑度用于评估语言模型的质量，定义为
$\exp\left(-\frac{1}{n}\sum_{t=1}^n\log P(x_t|x_{t-1},\ldots, x_1)\right)$
稍微推导一下
$\begin{align*} \exp\left(-\frac{1}{n}\sum_{t=1}^n\log P(x_t|x_{t-1},\ldots, x_1)\right) &= \exp(-\frac{1}{n}\log P(x_1, \ldots, x_n))\\ &= P(x_1, \ldots, x_n)^{-\frac{1}{n}} \end{align*}$
为什么要把这么简单的式子定义的这么麻烦？这是为了便于计算，因为时间步 $t$ 时RNN输出的值可以看作 $P(x_t|x_1, \ldots, x_{t-1})$ ，按照最初的式子，我们只需要把每次RNN的输出值加起来就行了。

在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。
在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。
在基线下，对于所有 $P(x_t|x_1, \ldots, x_{t-1})$ 都是一个均匀分布，代入后可得困惑值为 $\mathcal{V}$

梯度分析

为了方便起见，先不考虑矩阵形式和具体计算过程。存在输入序列 $x_1, \ldots, x_T$ ，则预测序列为 $(x_1, h_1, o_1), \ldots, (x_T, h_T, o_T)$ ，其中 $h_i$ 代表隐藏变量， $o_i$ 代表输出值，标签序列为 $y_1, \ldots, y_T$ ，隐藏层权重和输出层权重分别为 $w_h, w_o$ ，有：
$h_t = f(x_t, h_{t-1}, w_h)\\ o_t = g(h_t, w_o)\\ L(x_1, \ldots, x_T, y_1, \ldots, y_T, w_h, w_o) = \frac{1}{T}\sum_{t=1}^T l(o_t, y_t)$
于是对 $w_h$ 求偏导可得：
$\begin{align*} \frac{\partial L}{\partial w_h} &= \frac{1}{T}\sum_{t=1}^T\frac{\partial l(o_t, y_t)}{\partial w_h} \\ &= \frac{1}{T}\sum_{t=1}^T \frac{\partial l(o_t, y_t)}{\partial o_t}\frac{\partial g}{\partial h_t}\frac{\partial h_t}{\partial w_h}\\ &= \frac{1}{T}\sum_{t=1}^T \frac{\partial l(o_t, y_t)}{\partial o_t}\frac{\partial g}{\partial h_t}(\frac{\partial f}{\partial w_h}+\frac{\partial f}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}) \end{align*}$
由于 $\frac{\partial h_t}{\partial w_h} = \frac{\partial f}{\partial w_h}+\frac{\partial f}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}$ ，令
$a_t = \frac{\partial h_t}{\partial w_h} \quad b = \frac{\partial f}{\partial w_h} \quad c_t = \frac{\partial f}{\partial h_{t-1}}$
有
$\begin{align*} a_t &= b+c_t\cdot a_{t-1}\\ &= b+c_t\cdot(b+c_{t-1}\cdot a_{t-2})\\ &= b+c_t\cdot b+c_t\cdot c_{t-1}\cdot a_{t-2}\\ &= b+c_t\cdot b+\ldots+c_t\ldots c_2\cdot b\\ &= b+\sum_{i=1}^{t-1}\left(\prod_{j=i+1}^t c_j\right)b \end{align*}$
代入原变量可得
$\frac{\partial L}{\partial w_h} = \frac{1}{T}\sum_{t=1}^T \frac{\partial l(o_t, y_t)}{\partial o_t}\cdot \frac{\partial g}{\partial h_t}\left(\frac{\partial f}{\partial w_h}+\sum_{i=1}^{t-1}(\prod_{j=i+1}^t \frac{\partial f}{\partial h_{j-1}})\frac{\partial f}{\partial w_h}\right)$
如果我们完全计算出梯度，当 $t$ 较大时，计算非常缓慢，并且可能会发生梯度爆炸或梯度消失，因为初始条件的微小变化就可能会对结果产生巨大的影响。因此我们不能完全计算出梯度，我们存在以下两种解决方案：

截断时间步：在 $\tau$ 步后截断求和计算
随机截断：定义随机变量 $\xi_t$ ，其中 $P(\xi_t = 0)=1-\pi_t, P(\xi_t=\pi_t^{-1})=\pi_t$ ，此时 $\mathbb{E}[\xi_t] = 1$ ，将梯度 $\partial h_t/\partial w_h$ 替换为
$z_t = \frac{\partial f}{\partial w_h}+\xi_t\frac{\partial f}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}$
此时 $\mathbb{E}[z_t] = \partial h_t/\partial w_h$ 。

这两种截断策略实际上就是将整个文本截断，然后训练。虽然随机截断在理论上具有吸引力，但很可能是由于多种因素在实践中并不比常规截断更好。因此我们一般还是使用常规截断。

反向传播细节

令 $x_t\in\mathbb{R}^d$ 为单样本输入， $\mathbf{W}_{hx}\in\mathbb{R}^{h\times d}, \mathbf{W}_{hh}\in\mathbb{R}^{h\times h}, \mathbf{W}_{qh}\in\mathbb{R}^{q\times h}, \mathbf{b}_h\in\mathbb{R}^h, \mathbb{b}_q\in\mathbb{R}^q, h_t\in\mathbb{R}^h$ ，有
$h_t = \phi(\mathbf{W}_{hx}x_t+\mathbf{W}_{hh}h_{t-1}+\mathbf{b}_h)\\ \mathbf{o}_t = \mathbf{W}_{qh}h_t+\mathbf{b}_q\\ L(x_1, \ldots, x_T, y_1, \ldots, y_T, \mathbf{W}_{hx}, \mathbf{W}_{qh}, \mathbf{W}_{hh}, \mathbf{b}_h, \mathbf{b}_q) = \frac{1}{T}\sum_{t=1}^T l(\mathbf{o}_t, y_t)$
求 $\partial L/\partial \mathbf{W}_{qh}$ 和 $\partial L/\partial \mathbf{b}_h$
$\begin{align*} \text{d} L &= \frac{1}{T}\sum_{t=1}^T\text{d} l\\ &= \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf{o}_t\\ &= \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf(\mathbf{W}_{qh}h_t+\mathbf{b}_q)\\ & = \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf{b}_q+\frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf(\mathbf{W}_{qh})h_t\\ &= \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf{b}_q+\frac{1}{T}\sum_{t=1}^T\text{tr}((\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf(\mathbf{W}_{qh})h_t)\\ &= \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf{b}_q+\frac{1}{T}\sum_{t=1}^T\text{tr}(h_t(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf(\mathbf{W}_{qh}))\\ \end{align*}$
因此有
$\frac{\partial L}{\partial \mathbf{W}_{qh}} = \frac{1}{T}\sum_{t=1}^T\frac{\partial l}{\partial \mathbf{o}_t}h_t^\top, \quad \frac{\partial L}{\partial \mathbf{b}_q} = \frac{1}{T}\sum_{t=1}^T\frac{\partial l}{\partial \mathbf{o}_t}$
接下来求 $\partial L/\partial h_t$ ，当 $t = T$ 时有
$\begin{align*} \text{d} L &= \frac{1}{T}\sum_{t=1}^T\text{d} l\\ &= \frac{1}{T}\sum_{t=1}^T(\frac{\partial l}{\partial \mathbf{o}_t})^\top\text{d}\mathbf{o}_t\\ &= (\frac{\partial l}{T\partial \mathbf{o}_T})^\top\mathbf{W}_{qh}\text{d}h_T \end{align*}$
即
$\frac{\partial L}{\partial h_T} = \frac{1}{T}\mathbf{W}_{qh}^\top\frac{\partial l}{\partial \mathbf{o}_T}$
当 $t < T$ 时，令 $\mathbf{u}_j = \mathbf{W}_{hx}x_j+\mathbf{W}_{hh}h_{j-1}+\mathbf{b}_h$ 有
$\begin{align*} \text{d}L &= \frac{1}{T}\sum_{i=1}^T \text{d} l(\mathbf{o}_i, y_i)\\ &= \frac{1}{T}\sum_{i=t}^T \text{d} l(\mathbf{o}_i, y_i)\\ &= \frac{1}{T}\sum_{i=t}^T \frac{\partial l}{\partial \mathbf{o}_i}^\top \text{d}(\mathbf{W}_{qh}h_i+\mathbf{b}_q)\\ &= \frac{1}{T}\sum_{i=t}^T \frac{\partial l}{\partial \mathbf{o}_i}^\top\mathbf{W}_{qh}\text{d}h_i\\ &= \frac{1}{T}\sum_{i=t}^T \frac{\partial l}{\partial \mathbf{o}_i}^\top\mathbf{W}_{qh}(\frac{\partial \phi}{\partial \mathbf{u}_i})^\top\mathbf{W}_{hh}\text{d}h_{i-1}\\ &= \frac{1}{T}\sum_{i=t}^T(\frac{\partial l}{\partial \mathbf{o}_i})^\top\mathbf{W}_{qh}\left(\prod_{j=t}^i(\frac{\partial \phi}{\partial \mathbf{u}_j})^\top \mathbf{W}_{hh}\right)\text{d}h_t \end{align*}$
即
$\frac{\partial L}{\partial h_t} = \frac{1}{T}\sum_{i=t}^T\left(\prod_{j=t}^i \mathbf{W}_{hh}^\top\frac{\partial \phi}{\partial \mathbf{u}_j}\right)\mathbf{W}_{qh}^\top\frac{\partial l}{\partial \mathbf{o}_i}$
当激活函数 $\phi(x)=x$ 时，矩阵 $\mathbf{W}_{hh}$ 的幂次很高，在这个幂中，小于1的特征值将会消失，大于1的特征值将会发散。应用链式法则容易求得
$\frac{\partial L}{\partial \mathbf{W}_{hx}} = \sum_{t=1}^T\frac{\partial L}{\partial h_t}x_t^\top, \quad \frac{\partial L}{\mathbf{W}_{hh}} = \sum_{t=1}^T \frac{\partial L}{\partial h_t}h_{t-1}^\top$