搭配对比学习，万能的 prompt 还能做可控文本生成

最新推荐文章于 2025-03-07 17:30:41 发布

zenRRan

最新推荐文章于 2025-03-07 17:30:41 发布

阅读量1.4k

点赞数

文章标签：算法机器学习人工智能深度学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247509507&idx=4&sn=0a19c929c8e71820c76c839c689c795e&chksm=eb53b290dc243b862896dd1f324dcefaa5a93f6f6ec3940113a56c19e1845ad8aa4fa82a6348&scene=126&&sessionid=0

版权

这篇论文提出了一种新的方法，通过对比学习来寻找能够控制语言模型生成特定属性文本的指令（Prefix）。该方法分为监督和无监督两种，其中无监督方法利用VQ-VAE的思想来学习未知控制信号的潜在变量。实验结果显示，这种方法在情感控制、话题控制和多方面控制等任务上表现出色，且能有效提升推理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

每天给你送来NLP技术干货！

文 | ZenMoore
编 | 小轶

来自 | 夕小瑶的卖萌屋

可控文本生成，旨在让语言模型的输出带有我们想要的某种属性。比如情感、主题、三元组等。一般我们习惯采用 CTRL[1] 或者 PPLM[2] 等方式。但是，CTRL 是对整个语言模型进行 Finetuning, PPLM 因为需要在生成的过程中迭代更新 hidden activations，所以推理速度非常慢。

随着 Prompting 技术的大火，我们一直在思考，Prompt 究竟能够带来什么？我们都说，Prompt 本质上是一种激发语言模型中知识的手段。因此，它应该不仅仅局限于数据集或者说任务的层面，激发模型对于某个任务的“知识”，还应该扩展到范围更广的控制属性层面，激发模型对于某种输出属性的 sense ！

于是，我们不妨把视角从 task scaling 挪开，更多地关注一下 Prompt 对于可控性的 buff 加成。

今天的这篇文章来自 UCSB 和微软，提出通过对比学习的方法找寻到了这个 buff 一般的 Prompt，能够“调教”我们的语言模型进行可控的生成。

论文标题：
Controllable Natural Language Generation with Contrastive Prefixes

论文作者：
Jing Qian, Li Dong, Yelong Shen, Furu Wei, Weizhu Chen

论文链接：
https://arxiv.org/abs/2202.13257

模型方法

首先明确一个概念：Prefix。读者可以简单看一下 Prefix-Tuning[3] 的方法图，就大概知道：Prefix 相当于一种控制指令，加在输入的最前面，以控制生成文本的属性。

本文提出了两种方法，分别是监督方法和无监督方法。

下面的方法介绍以 Sentiment Control 为例（即生成给定带有情感的文本）。该任务要训练的，正是 positive 和 negative 的两种情感类别所对应的 prefix.

监督方法

整个训练过程和 Prefix-Tuning[3] 相似，LM 的参数是冻结的，只调整 Prefix 相关联的参数。在训练的时候，除了LM loss 之外，新增一个判别损失：

402 Payment Required

其中，代表生成文本，代表控制信号的类别（positive 或 negative）。

无监督方法

在监督方法中，控制信号是已知的。实际场景中还会常常出现控制信号未知的情况，因此需要通过变分的无监督方法找到这个“虚拟的类别信号“并使用 latent variable 表征，即 VQ-VAE[4] 的思想。

如图，需要先通过一个 encoder 预测相应输入对应的 latent variable 作为 prefix index(指代当前要使用哪个 prefix)。设 prefix index 为，则这个 encoder 就是要学习这个分布。

一方面，除了 LM loss ，还需要保证后验概率或尽可能的准确，故引入 KL 散度：

这里的假设是 uniform distribution。其中，

，，

GS 表示 Gumbel Softmax，是 GS 的 temperature 参数。

关于这块儿的详细原理，就是我们小学二年级就学过的 EM 算法啦~

帮读者回忆一下：

402 Payment Required
......

另外，作者又提出了一个无监督对比损失：

402 Payment Required

其中，和是根据 decoder 的文本生成概率得到的，具体计算方式如下：

402 Payment Required

最后总的损失函数为，, 的加权求和，

实验结果

Sentiment Control

Detoxification

Topic Control

推理速度

Multi-Aspect Control

实际场景中，很少有 multi-aspect labeled data，只有 single-aspect labeled data.

本文使用了两种方式来解决多种属性的可控生成问题：

Ours (concatenation)：使用 single-aspect labeled data 分别训练各自的 prefix, 然后在 multi-aspect control 任务中将其拼接起来。
Ours (semi-supervised)：同时训练 multi-aspect prefixes, 在训练时把 single-aspect labeled example 当做 partially labeled. 此外，multi-aspect prefixes 经过了 trained single-aspect prefixes 的初始化。

Ours (semi-supervised) 是上述监督方法和无监督方法的组合，因此架构图和无监督方法的图是一样的。

写在最后

这里也推荐读者品读一下 DeepMind & ICL 的相似工作：Control Prefixes [5].

古人云：“君子生非异也，善假于物也”。我们把语言模型比作“人”，把可控性比作“物”，也许，大大小小的语言模型在能力的本质上并没有什么不同，但是如果可以通过不同的 Control Prefixes，假之以物，则语言模型可成“君子”也！（哈哈，搞一个俏皮的比喻~）

无论是本文介绍的 Contrastive Prefixes 也好，还是 Control Prefixes 也好，我们都可以从中发现 Prompt 对于”调教“语言模型的伟大能力。从 task 到 controllability, 可能会是 prompt 向前发展的又一个新阶段吧~

招聘文章

国企招聘 | NLP、语音和CV等算法岗位招聘实习生和应届全职生

招聘 | 好未来NLP算法工程师，包括实习生、应届生和社招，组内论文多，技术深厚

春招 | 风控独角兽数美科技 NLP、ASR算法工程师 - 25k-35k/月

2022内推 | 字节跳动校招 + 社招，包括NLP、CV和ASR和研究员等

最近技术文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型，刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果
下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】
投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦
整理不易，还望给个在看！