NLP（自然语言处理）：Improving Neural Language Modeling via Adversarial Training 通过对抗噪音提升神经语言模型

最新推荐文章于 2024-08-07 11:38:54 发布

SaoYear

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量743

点赞数 1

分类专栏： NLP 文章标签：人工智能 NLP

本文链接：https://blog.csdn.net/qq_35509823/article/details/106063348

版权

NLP 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言
0. 摘要(Abstract)
1. 引言(Introduction)
2. 背景：神经语言模型(Background: Neural Language Model)
3. 主要方法(Main Method)
- 3.1. 对抗最大似然估计(Adversarial MLE)
- 3.2. 词嵌向量的多样性(Diversity of Embedding Vectors)
4. 相关工作与讨论(Related Works and Discussions)
5. 实验结果(Empirical Results)
6. 总结(Conclusions)

前言

本篇文章来自Dilin Wang et al. 于2019年发表的文章：Improving Neural Language Modeling via Adversarial Training. 文章通过引入对抗模型的方式缓解了低频词的训练问题。

0. 摘要(Abstract)

近年来，深度学习的应用在语言模型的提升上带来了明显的提升。然而，在实现过程中，大规模的自然语言模型会出现过拟合的情况。在这篇文章中，我们提出了一个简单但高效的对抗训练机制对自然语言模型进行正则化处理。这项方法在训练时，于输出层的词嵌处引入了一个对抗噪音。我们展示出，在对对抗噪音的优化中存在一个简单的闭式解，因此，可以借此形式来设计一个简单有效的优化算法。理论上，我们发现了此算法可以显著的提高算法词嵌向量的多样性，以提高算法的鲁棒能力。从实验中，我们的算法将SOTA算法在PTB和Wikitext-2数据集上取得了46.01和38.07的复杂度。当我们的算法应用于机器翻译中时，可以在基于transformer模型获得一定提升，并在两项翻译数据集中均取得了BLEU的提升。

1. 引言(Introduction)

基于统计的语言模型中，机器翻译是一项测试模型的基本任务。其应用十分广阔，包括自动语音识别，机器翻译和机器视觉等。近年来，深度神经网络已经变成构建语言模型时最强劲的模型之一。而不幸的是，在训练大型RNN模型时，一项主要的挑战在于模型趋于过拟合，这样的问题通常都起源于RNN模型的高复杂度和自然语言输入的离散性。虽然许多正则化技术都用于解决此类问题，如early stop和dropout。但在现行的模型算法上，模型的训练集结果与测试集结果相差甚远，表明过拟合仍然是最常见出现的问题。

此篇文章中，我们设计了一种简单但十分有效的 极小化极大训练策略(minimax training strategy) 用于正则化。我们的想法是将一个对抗扰动加于语言模型的softmax层中的词嵌矩阵之上，并优化参数，以能最大化对抗扰动/噪音对模型的影响。值得注意的是，在我们的模型中，我们为这项扰动的优化设计了一个十分简单和高效的算法，可以让我们十分轻松的将其部署在传统模型中，而不带来额外的训练参数。

我们模型在理论上有一个十分复杂却讨好的理论特性，它可以高效促进词嵌向量的多样性，可以提升自然语言模型的泛化能力。在之前的工作中，为词嵌加入多样性这样的要求，通常通过添加额外的多样性惩罚项这种显性的方式完成。这种方式会影响优化中似然的计算，且在词表数很大时，计算成本很高。有趣的是，我们提出的这种对抗方法不需要添加额外的惩罚项，并且对比一般的正则方法，能更高效的计算。

从实验中，我们发现这种对抗算法能显著的提升在语言模型和机器翻译中SOTA算法的效果。对语言模型来说，我们建立了一个新兴的模型并在各个数据集均取得了SOTA的结果。

2. 背景：神经语言模型(Background: Neural Language Model)

一般来说，word-level的语言模型，其原理都基于条件向量的链式法则，即:

$p(x_{1:T}=\prod_{t=1}^T p(x_t|x_{1:t-1})), \tag1$

其中 $x_{1:T} = [x_1, x_2, ..., x_T]$ 代表了一个长度为T的句子， $x_t \in \mathcal V$ 是第t个词， $\mathcal V$ 代表了字典集。在现代的自然语言模型中，条件概率 $p(x_t|x_{1:t-1})$ 通常会被RNN所表征，其中每个时间步 $t$ 的上下文表示为 $x_{1:t-1}$ ，并且由一个隐层向量 $h_t \in \mathbb R^{d_h}$ 递归表征：

$h_t = f(x_{t-1}, h_{t-1};\bm\theta), \tag2$

其中， $f$ 代表了一个非线性映射， $\theta$ 代表可训练的参数。接下来，条件概率就可以通过一个softmax方程进行表征：

$\begin{aligned} p(x_t|x_{1:t-1}; \bm\theta; \bm\omega) &= Softmax(x_t, \bm\omega, h_t) \\ &:= \frac{exp(\omega_{x_t}^\mathrm{T}h_t)}{\sum_{l=1}^{|\mathcal V|}exp(w_l^\mathrm{T}h_t)}, \tag3 \end{aligned}$

其中 $\bm{\omega}={\omega_i} \subset \mathbb R^d$ 为Softmax的参数； $\omega_i$ 可以被看作词 $i\in\mathcal V$ 的词嵌矩阵， $h_t$ 是上下文 $x_{1:t-1}$ 的隐藏表达。内积 $\omega_{x_t}^\mathrm{T}h_t$ 衡量了词 $x_t$ 与其之前的上下文语境 $x_{1:t-1}$ 的相似度，并使用softmax函数将其转化为一个概率值。

在实现过程中，非线性映射 $f$ 由RNN的结构决定，如LSTM，GRU等。这种映射关系可能会用于另一种词嵌入向量集 $\omega_i' \in \mathbb R^{d'}$ 即

$f(x_{t-1}, h_{t-1}; \bm{\theta}) = f_{RNN}(w_{x_{t-1}}', h_{t-1}; \bm{\theta}'),$

其中 $\bm\theta'$ 为RNN中 $f_{RNN}$ 的权重， $\bm\theta=[\omega', \theta']$ ，会和 $\omega$ 一起训练。这里， $\omega_i'$ 是词得嵌入矩阵，它会在输入段被模型训练，也就是我们说的输入词嵌矩阵。而 $\omega_i$ 是输出词嵌矩阵。一种常用的技巧是令这两个词嵌矩阵为一个矩阵，我们称之为权重绑定(Weigh tying)，其能减少训练所需的总参数量，并带来一定的提升。

在给定一系列句子为 ${x_{1:T}^l\}_l$ 时，参数 $\bm\theta$ 和 $\bm\omega$ 会通过最大似然同时训练：

$\max_{\theta, \omega}\{\mathcal L(\bm\theta, \bm\omega):=\sum_{t, l}log p(x_t^l|x_{1:t-1}^l; \bm\theta, \bm\omega)\}. \tag4$

这样的优化同时训练了大量的参数 $[\bm\theta, \bm\omega]$ ，训练同时包括了神经元中的参数，和词嵌矩阵中的参数，因此在实现中很容易引起过拟合。

3. 主要方法(Main Method)

基于在输出词嵌 $\omega_i$ 中加入对抗扰动，我们提出了一个简单的算法可以有效地减缓深度自然语言模型中的过拟合问题（如式3所示）。我们的方法简单的出奇，对比于标准的最大似然训练，几乎没有引入额外的计算量，却在一些挑战中带来了巨大的提升。我们也将输出词嵌矩阵画了出来，以展示其提升了输出词嵌向量 $\{\omega_i\}$ 的多样性。而这种多样性提升普遍能为结果的鲁棒性带来提升。

3.1. 对抗最大似然估计(Adversarial MLE)

我们的想法是在输出词嵌向量 $\{\omega_i\}$ 的最大似然训练中引入一个对抗噪音：

$\max_{\bm\theta, \bm\omega} \min_{\{\delta_{j;t,l}\}} \sum_{t,l}log\ p(x_t^l | x_{1:t-1}^l; \bm\theta, \{\omega_j + \delta_{j;t, l}\}) \\ s.t. ||\delta_{j;t,l}|| \le \epsilon/2, \forall j, t, l, \tag 5$

其中 $\delta_{j;t,l}$ 是对于词 $\omega_j, j \in \mathcal V$ 的一个对抗扰动项，其位置在对第 $l$ 个句子的第 $t$ 个位置。我们使用 $||\cdot||$ 来表示L2正则项； $\epsilon$ 用于控制扰动项的大小。
上述方程有一个显著的特点：在固定模型参数 $[\bm\theta, \bm\omega]$ 下，对抗扰动项 $\bm\delta=\{\delta_{i;t,l}\}$ 有一个简单的闭式解，通过这个闭式解，我们可以推导出一个简单有效的算法（算法1）来轮流优化 $[\bm\theta, \bm\omega]$ 和 $\bm\delta$ 。

定义3.1. 对每个式(3)条件概率中的项 $p(x_t=1|x_{1:t-1};\bm\theta, \bm\omega) = Softmax(i, \bm\omega,h_t)$ ，式(5)中对抗扰动项的优化如下公式所示：

$\min_{\{\delta_j\}_{j\in \mathcal V}} \frac{exp((\omega_i + \delta_i)^T h)}{\sum_j exp((w_j + \delta_j)^Th)}\ \ s.t\ ||\delta_j|| \le \epsilon/2, \forall j \in \mathcal V.$

这就等同于只在 $\omega_i$ 上添加大小为 $\epsilon$ 的扰动项：

$\min_{\delta_i} \frac{exp((\omega_i + \delta_i)^Th)}{exp((\omega_i + \delta_i)^Th) + \sum_{j \not = i} exp(\omega_j^Th)}\ \ s.t\ \ |||\delta_i|| \le \epsilon,$

其又可以进一步等价于：
$\delta_i^* = \argmin_{||\delta_i|| \le \epsilon}(\omega_i + \delta_i)^Th = -\epsilon h/||h||. \tag6$

至此，我们可以得出：

$\begin{aligned} AdvSoft_\epsilon(i, \omega, h) :&= \min_{||\delta_i||_2 \le \epsilon} Softmax(i, \{\omega_i + \delta_i, \bm\omega_{j \not = i}\}, h) \\ &= \frac{exp(\omega_i^Th-\epsilon||h||)}{exp(\omega_i^Th - \epsilon ||h||) + \sum_{j \not = i} exp(\omega_j^Th)} \end{aligned}$

在实现过程中，我们会轮流优化参数 $[\bm\theta, \bm\omega]$ 和 $\bm\delta=\{\delta_{i:t, l}\}$ . 固定 $\bm\delta$ ，模型参数 $[\bm\theta, \bm\omega]$ 使用梯度下降作为标准最大似然训练。而对 $\bm\delta$ 的训练是在固定参数 $[\bm\theta, \bm\omega]$ 下，使用(6)式得到的结论进行优化，基本上没有引进额外的计算量。算法 1展示了这一过程。我们的算法可以视为 $AdvSoft_\epsilon(i, \bm\omega, h)$ 的近似梯度下降优化，但没有对正则项 $\epsilon||h||$ 的反向传播。从实验上表明，如果对此正则项进行反向传播，反而得到的结果更差，在几个epoch后训练误差就开始离散（diverge）了。这可能是因为在 $\epsilon||h||$ 的梯度计算中，为了提高 $AdvSoft_\epsilon(i, \bm\omega, h)$ , $∣ ∣ h ∣ ∣$ 的值被迫很大，而这与我们在实验中的设置相违背。

算法 1

3.2. 词嵌向量的多样性(Diversity of Embedding Vectors)

我们设计的对抗策略有一个十分有趣的特点：它可以被看作一个鼓励词嵌向量分布更离散的方法。我们将展示对于词嵌向量 $\omega_i$ ，一旦存在一个上下文向量 $h$ 使 $\omega_i$ 在 $A d v S o f t$ 的计算中支配其他词（dominate），该算法是如何确保其分布与其他词向量离散，并保持 $\epsilon$ 的最小距离。这个简单的性质可以由对抗设置的定义来推导得出：如果在 $\omega_i$ 为原点， $\epsilon$ 为半径的球中存在一个 $\omega_j$ ，则 $\omega_i$ (和 $\omega_j$ )永远不会主导支配，因为处于支配地位的那个词会被对抗的噪声所惩罚。

定义 3.2. 给定一个词嵌矩阵集合 $\omega = \{\omega_i\}_{i \in \mathcal V}$ ，若存在一个向量 $\in \mathbb R^d$ ，使 $\omega_i$ 在 $\epsilon$ 的对抗噪声下支配其他词，则称 $\in \mathcal V$ 的这个词为 $\epsilon$ -可识别，其中：

$\min_{||\delta_{i}|| \le \epsilon} (\omega_i + \delta_i)^T h = (\omega_i^Th - \epsilon||h||) > \omega_j^Th, \ \ \forall j \in \mathcal V, j \not = i.$

这时，我们可得 $AdvSoft_\epsilon(i, \bm\omega, h) \ge 1/|\mathcal V|$ , 且尽管有对抗噪音，我们仍可以将 $\omega_i$ 归类为语境 $h$ 的目标词。

定理 3.3. 给定一系列词嵌向量 $\bm\omega = \{\omega_i\}_{i \in \mathcal V}$ ，如果词 $\omega_i$ 为 $\epsilon$ -可识别，则一定有：

$\min_{j \not =i} ||\omega_j - \omega_i|| > \epsilon,$
此时 $\omega_i$ 将与其他所有词保持最小为 $\epsilon$ 的距离。

证明如果存在 $\not = i$ 使 $||\omega_j - \omega_i|| \le \epsilon$ ，根据对抗优化的原理，我们可以得到：

$\omega_j^T h \ge \min_{||\delta_i|| \le \epsilon} (\omega_i + \delta_i)^Th > \omega_j^Th.$

而形成了一个对立（反证）。 $\square$

注意，最大化对抗训练目标函数可以看作通过其上下文向量 $h$ 来将每个 $\omega_i$ 增强为 $\epsilon$ -可识别，而也同时隐形的训练了词嵌的多样性，使其可以与其他词区分开来。我们应该注意到，在 定义3.2 中的上下文向量 $h$ 不需要在训练集出现，虽然他很可能在训练时出现。

定理 3.4. 根据式(7)中的定义，我们可以得到：

$AdvSoft_{\epsilon}(i, \bm\omega, h) \le \sigma(\Phi(i, \bm\omega, ||h||)),$

其中 $\sigma(t) = \frac{1}{1+e^{-t}}$ 是sigmoid函数，而 $\Phi(i, \bm\omega, \alpha)$ 是一个“能量方程”，它衡量了从 $\omega_i$ 到 $\omega_j$ 之间的距离， $\forall j \not= i$ ：

$\begin{aligned} \Phi(i, \bm\omega, \alpha) &= -log\sum_{j \not= i}exp(-\alpha(||\omega_i - \omega_j|| - \epsilon)) \\ &\le \alpha \min_{j \not = i}(||\omega_i - \omega_j|| - \epsilon). \end{aligned}$

证明我们有

$\begin{aligned} AdvSoft_{\epsilon}(i, \bm\omega, h) &=\frac{exp(\omega_i^Th - \epsilon||h||)}{exp(\omega_i^Th - \epsilon||h|| + \sum_{j \not= i}exp(\omega_j^Th))} \\ &= \sigma(\Psi(i, \bm\omega, h)), \end{aligned}$
其中

$\Psi(i, \bm\omega, h) = -log\sum_{j \not= i}exp((\omega_j - \omega_i)^Th + \epsilon||h||)$

注意到 $(\omega_j - \omega_i) \ge -||\omega_j - \omega_i|| \cdot ||h||$ ，我们可知：

$\begin{aligned} \Psi(i, \bm\omega, h) &= \log\sum_{j \not= i}exp((\omega_j - \omega_i)^Th + \epsilon||h||) \\ & \le -log\sum_{j \not= i}exp(-||\omega_j - \omega_i|| \cdot ||h|| + \epsilon||h||) \\ & = \Phi(i, \bm\omega, ||h||). \qquad \square \end{aligned}$

因此，最大化 $AdvSoft_{\epsilon}(i, \bm\omega, h)$ 在我们算法中，同样也会最大化能量函数 $\Phi(i, \bm\omega\ ||h||)$ 来通过增加一个更大的惩罚项，来暴力地使 $\min_{j \not= i}(||\omega_i - \omega_j||) \ge \epsilon$ 。