Controllable Natural Language Generation with Contrastive Prefixes：使用前缀微调指导多属性文本生成

本文链接：https://blog.csdn.net/qq_51957239/article/details/136676058

本文提出了一种利用冻结LM的前缀控制框架，通过监督和无监督方法训练多个前缀，考虑前缀间的关系，实现了单方面和多方面控制。实验结果显示，这种方法有效指导了生成过程。

摘要由CSDN通过智能技术生成

文章的主要工作

（1）提出了一种新颖的框架，该框架利用带有冻结 LM 的前缀作为可控 GPT2 生成的轻量级替代方案。
（2）提出了一种具有新颖目标的监督方法和无监督方法来进行前缀训练，其中考虑了前缀之间的关系并同时训练多个前缀。
（3）这项工作为单方面控制和多方面控制提供了统一的视角。实验结果表明，我们的方法可以有效地指导单方面控制和多方面控制的生成。

方法

为了独立地训练每一个前缀，我们考虑属性之间的关系并同时训练多个前缀，因此 $H_\theta$ 的维度是 $\times M \times D$ ，其中 $N$ 是前缀的数量。在单一方面控制中， $N$ 等于涉及方面的属性数量。 $M$ 是前缀的长度。 $\times L \times E$ 是在GPT-2中激活的维度，其中 $L$ 是Transformer层的数量， $E$ 是隐藏层的大小，2表示一个键向量和一个值向量。跟随Li和Liang (2021)的工作，我们通过一个较小的参数 $H'_\theta[l, j, :]$ 与一个大矩阵 $W_l$ 重参数化 $H_\theta[l, j, :] = W_lH'_\theta[l, j, :]$ 。训练完成后，只有 $H_\theta$ 需要被保存以用于生成，而 $W$ 和 $H'_\theta$ 可以被丢弃。因为GPT-2的参数在训练过程中被冻结了，它们也不需要被保存。图2展示了在训练前缀控制下的生成过程的一个例子。前缀可以通过监督、半监督或无监督的方式来训练。由于半监督方法是监督方法和无监督方法的结合，我们在这一部分介绍了监督和无监督方法。为了清晰起见，我们在单一方面控制设置下介绍这些方法。

监督方法

假设所关注的方面有属性集合 $Y$ ，每个训练样本是一对 $(x, y)$ ，其中 $x$ 是输入文本， $\in Y$ 是属性标签。注意，属性标签也表示前缀在 $H_\theta$ 中的地面真值索引，所以 $y$ 也指的是下文描述中的前缀索引。我们引入了一个额外的判别损失来同时训练多个前缀。因此，训练损失 $L_{sup}$ 是语言模型损失 $L_{LM}$ 和判别损失 $L_d$ 的加权和：

监督训练损失： $L_{sup} = \omega_1L_{LM} + \omega_2L_d$
语言模型损失： $L_{LM} = -\sum_{t=1}^{T} \log p(x_t | x_{<t}, y)$
判别损失： $L_d = -\log \frac{p(y)p(x|y)}{\sum_{y' \in Y} p(y')p(x|y')}$

计算 $log p(x_t | x_{<t}, y)$ 通过固定的GPT2参数化为 $\log p_{\theta, \gamma}(x_t | x_{<t}, H_\theta[y, :, :])$ ，其中 $\gamma$ 是固定的GPT2参数， $\theta$ 表示可学习的前缀参数。 $\log p(x|y)$ 是 $\log p_{\theta, \gamma}(x_t | x_{<t}, y)$ 在 $t$ 上的和，因此参数化 $\log p(x|y)$ 是 $\log p_{\theta, \gamma}(x_t | x_{<t}, H_\theta[y, :, :])$ 的和。

注意，每个前缀可以单独使用 $L_{LM}$ 进行训练，这将与Li和Liang（2021）的前缀调整方法相同。直观地讲，通过 $L_{LM}$ 训练的前缀被注入了鼓励生成的信息。然而，我们观察到，在可控的自然语言生成（NLG）中，给前缀注入不鼓励生成的信息也是有帮助的。给定一个训练样本 $(x, y)$ ，前缀 $H_\theta[y, :, :]$ 应当被优化以生成 $x$ ，而其他前缀应当被阻止生成 $x$ 。为了实现这一目标，所有在 $H_\theta$ 中的前缀应该同时被训练。因此，判别损失 $L_d$ 被引入。优化 $L_d$ 可以通过增加 $p (y ∣ x)$ 并减少 $p (x ∣ y^{'})$ ，其中 $\ { y } y' \in Y \backslash \{y\}$ 来提高属性对齐。我们假设先验分布是均匀的，所以 $p (y)$ 和 $p (y^{'})$ 可以在公式被消去。图3展示了两个前缀的训练过程。

无监督方法

在无监督设定中，我们假定属性集 $Y$ 中所关心的方面是已知的。训练样本仅由输入文本 $x$ 构成。属性标签 $y$ 不再可用，因此与 $x$ 相关联的前缀索引是未知的。换句话说，前缀索引是一个潜在变量 $z$ ，其后验分布遵循一个分类分布。受到VQ-VAE（van den Oord等人，2017年）的启发，我们考虑将前缀作为离散潜在表示。我们采用在上述监督方法中的主模型作为解码器，并引入一个编码器来参数化分类分布 $q (z ∣ x)$ 。根据 $q (z ∣ x)$ ，选出一个前缀索引 $z$ 并将前缀 $H_{\theta}[z, \cdot;]$ 送入解码器来重构输入文本 $x$ 。由于前缀的选择过程是不可微分的，我们使用了Gumbel-Softmax（GS）松弛方法（Jang等人，2017年；Maddison等人，2017年）遵循Sønderby等人（2017年）；Ramesh等人（2021年）。形式上， $q (z ∣ x)$ 的计算如下：

$\text{GS}\left(-\left\|\text{Enc}(x) - H_{\theta}\right\|_2, \tau\right)$

其中， $\tau$ 是Gumbel-Softmax的温度， $\text{Enc}$ 是编码器函数。我们使用预训练的GPT-2模型后跟一个线性层作为编码器。为了训练前缀，损失函数是三个损失项的加权和：

$\mathcal{L}_{\text{uns}} = \omega_1 \mathcal{L}_{\text{LM}} + \omega_2 \mathcal{L}_{\text{KL}} + \omega_3 \mathcal{L}_{\text{c}}$

其中， $\mathcal{L}_{\text{LM}}$ 是语言模型损失。类似于在监督方法中的计算， $log p(x_t | x_{<t}, z)$ 是参数化的，作为 $\log p_{\theta_y}(x_t | x_{<t}, H_{\theta}[z, \cdot;])$ 。 $\mathcal{L}_{\text{KL}}$ 是Kullback-Leibler散度，我们假设先验 $p (z)$ 是均匀的。注意，这两个术语构成了VAE的损失函数。优化这两个损失项可以改善证据的下界 $\log p(x)$ 。类似于在监督方法中 $\mathcal{L}_{\text{d}}$ 背后的直觉，如果 $x$ 的真实前缀是 $H_{\theta}[y, \cdot;]$ ，那么其他前缀应当被阻止生成 $x$ 。然而， $\mathcal{L}_{\text{d}}$ 需要计算时有真实标签 $y$ 。相反，我们引入了一个无监督对比损失 $\mathcal{L}_{\text{c}}$ 。

$\mathcal{L}_{\text{c}} = \max(m - \left\| p(z|x) - p(\tilde{z}|x) \right\|_2, 0)^2$
其中 $m$ 是预设的边际值， $\tilde{z}$ 是另一个潜在变量，表示相反前缀的索引。 $q(\tilde{z}|x)$ 的计算如下：

$q(\tilde{z}|x) = \text{GS}\left( -\left\| \text{Enc}(x) - H_{\theta} \right\|_2, \tau \right)$

$\mathcal{L}_c$ 旨在通过将 $p (z ∣ x)$ 从 $p(\tilde{z}|x)$ 推开一个边际值来增加属性对齐。 $p(\tilde{z}|x)$ 的计算如下：

$p(\tilde{z}|x) = \frac{p(\tilde{z})p(x|\tilde{z})}{\sum_{z' \in Y} p(z')p(x|z')}$

我们假设先验是均匀的，所以 $p(\tilde{z})$ 和 $p (z^{'})$ 可以被约去。类似于在监督方法中 $\log p(x|y)$ 的参数化， $\log p(x|z)$ 的参数化是 $\log p_{\theta_y}(x_t | x_{<t}, H_{\theta}[z, \cdot;])$ 关于 $t$ 的总和。训练过程在图4中说明。