EMNLP 2022 | 基于视角转换的反事实数据增强方法

最新推荐文章于 2025-04-27 00:43:43 发布

PaperWeekly

最新推荐文章于 2025-04-27 00:43:43 发布

阅读量1.3k

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247603308&idx=3&sn=7b4fa53e1602f9fe24499847165708f9&chksm=96eb8beca19c02facfb8b51716ff16da90aa6fb0e78c79123bb89928239abb24161b3fc47af8&scene=126&&sessionid=0

版权

©作者 | 张轶博

单位 | 北京邮电大学AI院

研究方向 | 对话系统

论文标题：

Counterfactual Data Augmentation via Perspective Transition for Open-Domain Dialogues

论文链接：

https://arxiv.org/abs/2210.16838

代码链接：

https://github.com/ictnlp/CAPT

摘要

开放域对话系统的构建需要高质量的对话数据集。对话数据允许对给定的对话历史进行各种各样的响应，尤其是具有不同语义的响应。然而，在大多数场景中收集高质量的数据集都是劳动密集型并且耗时的。

在本文中，我们提出了一种数据增强方法，通过反事实推理自动增强具有不同特征的高质量响应。具体地说，给定一个观察到的对话，我们的反事实生成模型首先用替换的回答视角替换被观察到的回答视角，以此来推断不同语义的回答。然后，我们的数据选择方法过滤掉有害的增强响应。实验结果表明，我们的数据增强方法可以为给定的对话历史增加具有不同语义的高质量响应，并且可以在多个下游任务上优于竞争性基线。

Intro

通常，训练开放域对话系统需要高质量的对话数据集，一个给定的对话可以存在许多具有不同语义的有效响应。针对上述问题，本文中建议为给定的对话历史增加不同语义的有效响应，从而实现针对对话数据集的数据增强。下面有一个反事实推断（在当前环境下对不同反应的想象）例子：

基于此，我们提出了一种基于视角转换的反事实数据增强方法，简称 CAPT，以生成给定对话的反事实响应。CAPT 将反事实生成模型解释为结构性因果模型（SCM），它描述了当前环境下的生成过程。当前环境由 SCM 中的未观测变量建模，这些变量捕获了所有未观测到但影响响应生成的相关因素。

然后，通过干预 SCM 中的回答视角，即替换当前回复视角，并保持这些未观察到的变量不变，从而生成反事实回答。在获得所有反事实增强响应之后，使用数据选择模块进一步过滤增强数据。最后，我们将观察到的数据与该增强数据合并，作为下游任务的训练数据。

实验结果表明，CAPT 可以增强不同语义的高质量响应，本文的增强数据有助于提高基于检索和基于生成的开放域对话模型的性能。本文贡献总结如下：

1. 提出了一种通过视角转换的反事实数据增强方法，以增强给定对话历史中不同语义的响应。据本工作所知，这是第一次在开放域对话中用不同的语义增强响应的研究；

2. 自动和人工评估表明，CAPT 生成语义不同的响应，可以进一步用于提高下游任务的性能；

3. 大量实验表明，提供更多具有不同语义的响应可以进一步提高性能。

背景

结构因果模型：

定义。结构因果模型（SCM）由一组可观测到的变量 observed variables 组独立的未观测随机变量 unobserved random variables 组成，分布为 P(U)，它们由一组函数连接。明确地任意由一组父变量和引起，即，其中（在有向无环图中 DAG）。

对于反事实生成模型，可以将其转换为具有三个可观测变量的 SCM，包括对话历史、回复观点和响应。反事实生成 SCM 将条件分布转换为确定性函数，其中 U 捕获当前环境的所有未观察但有影响的因素，例如说话风格。函数 f 由学习的反事实生成模型定义。总的来说，给定已知函数 f 和未观测变量的后验概率，SCM 可以推断出反事实响应。

干涉。在观察可观测变量会发生什么之前，应对其父变量进行干预，其中在 SCM 中的干预就是改变其值。对于反事实生成 SCM，干预是用不同的值替换回复视角的可观测值。

反事实推理。给定 SCM 并观察到变量，反事实推断回答了这样一个问题：如果在保持当前环境不变的情况下干预了父变量，则观察到的变量会发生什么变化。因此，生成反事实响应涉及到一个问题，即如果通过将设置为不同的值，而不是原始观察值 z 来进行干预，那么响应会发生什么。

总的来说，为了产生反事实响应，有以下三步：（1）诱拐 Abduction：预测“SCM的当前环境”，即计算后验概率并从中采样 U。（2）行动：通过将的观测值重新设置为不同的值来执行干预。（3）预测：在给定后验样本和已知函数的情况下，得出一个反事实的响应。

方法

在本节中，我们的目标是获取一个输入对话样本（x, y），并增强与 y 具有不同语义的高质量响应。为此，在第 3.1 节中，介绍了一种技术，通过视角转换的反事实生成，用于干预观察到的回复视角，以增强当前环境下的响应。在第 3.2 节中，本文描述了如何训练第 3.1 节中涉及的那些模型，包括回复视角预测器和反事实生成器。

4.1 通过视角转换的反事实生成

本文主要关注单轮对话。给定一个响应对（x，y），我们使用 SCM 按图 2 所示的三步程序生成反事实响应 y。

4.1.1 Abduction.

该步骤是在给定观测样本（x，z，y）的情况下估计未观测变量 u。具体来讲，当生成的第个标记时，本文的反事实生成器输出分类分布，其中是在前一时间步中生成的标记序列。本文通过引入 Gumbel 随机噪声来模拟未观测随机变量的影响。因此，我们对这种分类分布执行 Gumbel-Max Trick，如下：

▲ ps：Gumbel-Max Trick 解决的问题就是如何从一个离散分布中抽样，并且该过程可导。

其中，|V| 表示词汇大小。

因此，我们的反事实生成 SCM 转变为 Gumbel Max SCM。对未观测变量 u 的估计是从这些 Gumbel 随机变量的后验分布中采样。一种直接的后验方法是利用移位 Gumbel 变量的特性：在后验中，g 的最大值与移位的 Gumbel 变量的 argmax 独立，并作为标准 Gumbel 分布。

因此，我们首先假设（*表示观察到的 token），并对最大值从进行采样。然后，我们对在（最大值）截断的移位 Gumbel 分布的剩余值 gtk 进行采样。然后，对于 k 的每个索引，通过从 gtk 中减去位置参数 log ptk 来获得 utk 的样本。最后，所得样本用于推断反事实反应。（ 表示一种随机的状态，取出来不同的 。后验的话就是，已知回复 y 的分布，得到 u 的分布）

4.1.2 Action.

这一步骤是用替换的回复视角来替换观察到的回复视角 z。然而，需要解决两个子问题：表征回复视角和预测替代的回复视角。通过观察人类对话，我们发现可以用一个关键词（如图 2 中的 “stop smoking”）来表示一个新的视角。它可以基于这样一个过程来实现，即人类首先自然地关注某个对话历史的某个点，如“smoking”，然后会无意识地将这个焦点转移。焦点可以类似地由关键字表示。本文将焦点和移动后的焦点分别命名为 focus 和 reply perspective。当人类有不同的关注点（例如，图 2 中的 “health”）或对同一个关注点的不同转移时，他们将获得替代的回答视角。

要实现有效的替代方案，关键是要有效地转移焦点。本文基于所有观察到的样本构建了一个移位图，其中头部和尾部顶点分别是 focus 和 reply perspective，edge 表示 focus 和回复角度之间观察到的移位。本文将给定 focus 的 1 跳邻居（即为 reply perspective）视为候选，并从这些候选中预测有效的替代方案。

本文用两个步骤构建移位图 G：节点构造和边构造。对于顶点构造，本文首先利用基于规则的关键词提取方法从目标对话数据集 D 中的话语中识别突出关键词。

为了进一步从 x 的所有关键词中识别焦点 c，使用来自未来信息（即响应）的指导来选择语义上最接近回复 y 的关键词。为了识别回复视角 z ，本文选择语义与 c 最接近的关键词。

更具体地说，我们通过 BERT 使用它们嵌入之间的余弦相似性作为语义接近度的度量，其中每个嵌入都是通过取每个标记的隐藏状态的平均值来实现的。对于边的构造，我们通过连接 c 和 z 来构建边。这样，就刻画了 D 中的所有移位关联。

一旦建立了移位图，我们就预测为：

这是由一个经过训练的回复视角预测器。可以是对话历史 x 中的任何关键字，表示的 1 跳邻居。

4.1.3 Prediction.

该步骤是在给定后验样本的情况下，生成反事实响应。具体而言，当生成反事实响应的第 t 个 token 时，本文的反事实生成器计算分类分布如下：

其中是预测的答复视角，是之前步骤中生成的 token 序列。

总的来说，通过视角转换生成反事实可以作为一种有效的数据增强方法，用于开放域对话，以更广泛的语义覆盖范围来增强响应。我们在算法 1 中展示了这种方法。

该算法将观察到的样本（x，y）作为输入，并循环 x 的每个关键字作为不同的 focus c。对于每个，为了采样多个对应的回复视角，我们将候选集等分为用于嵌套循环的 K 个子集。在每次迭代时，它预测视角转换的不同，以输出反事实样本。

4.2 模型训练

CAPT 依赖于回复视角预测器 reply perspective predictor 和反事实生成器 counterfactual generator，这大大影响了增强的质量。本文选择预训练 BART 作为主干模型。

Reply Perspective Predictor. 本文在对话数据集 D上微调 BART 以学习。特别地，输入是由 X、focus C 和 candidates N 组成的串联文本序列。输出是测的回复视角 Z。我们最大化目标如下，

其中括号 [·，·，·] 表示与标记 [SEP] 的连接。候选 N 也用逗号连接。Z<t 是回复视角的前缀。|Z| 表示 Z 的长度。

Counterfactual Generator. 本文在 D 上微调 BART 以学习 P（Y|X,Z）。具体地说，生成器被训练以生成带有输入提示的响应 Y，该输入由 X 和回复视角 Z 组成。因此最大化了以下目标：

实验设置及结论

实验在中国微博语料库上进行。具体地说，数据集 D 包含分别具有 300K、5K 和 10K 响应后样本的训练、验证和测试集。

评估增强数据

结果如表 1 和表 2 所示，这表明我们的增强数据优于所有基线。我们进一步观察到：

1. 本文的增强数据在所有指标上获得了与 observed 数据相似的分数，这表明我们的增强的数据是高质量的。我们展示了一些增强数据的例子，以显示图 3 中不同语义响应的生成过程；

2. 我们的增强数据获得了更好的 BSf、BSf o 和 Richness 分数，这表明 CAPT 可以增强具有不同语义的更多响应。特别是，BART-samp 与 CAPT 的对比从回复角度来看，显示了干预的有效性；

3. 与其他基线相比，BART-k10在所有指标上取得了相对较好的分数。这表明 top-k 采样（k=10）优于其他解码策略。因此，top-k 采样（k=10）可用于以下基于生成的模型。

评估对话模型

基于检索和基于生成的模型的结果分别如表 3 和表 4 所示，这表明 CAPT 在两种对话模型的几乎所有指标上都优于所有基线。这证实了用不同的语义增强有效响应的有效性。我们可以进一步观察到：

1. 与其他基于 BART 的方法相比，CAPT 在几乎所有指标上都获得了更高的分数，尤其是 BART 采样。这表明，从回答的角度进行干预对提高对话模型的性能是有效的；

2. CAPT 获得了较高的 BSf 和 Richness 评级，但 BLEU 得分相对较低。我们推测，增加更多语义上不同的样本可以使对话模型产生更多不同于参考的响应。

消融实验

总结

本文提出了一种反事实数据增强方法，CAPT，以增强给定对话中不同语义的更多响应。具体而言，CAPT 通过干预观察到的回答视角，使用反事实推断来生成反事实回答，使原视角用不同的回答视角来代替，从而生成语义上不同的回答。

实验结果表明，CAPT 可以增强具有不同语义的高质量响应，这可以进一步用于提高下游任务的性能。在未来的工作中，我们计划探索一种适当的训练策略，以进一步防止对话模型受到增强数据中噪声的影响，并在多回合对话中扩展 CAPT。我们希望 CAPT 将鼓励未来对其他生成任务的研究

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧