问题生成的多样性会在多大程度上帮助下游QA任务?

©PaperWeekly 原创 · 作者|Maple小七

学校|北京邮电大学硕士生

研究方向|自然语言处理

TL;DR:问题生成(Question Generation, QG)的重要应用之一是辅助提升 QA 模型的性能,那么问题生成的多样性会在多大程度上帮助下游 QA 任务?本文通过实验证明了促进 QG 多样性对 QA 模型提升的有效性。

同时,作者发现目前广泛使用的评估指标(BLEU、ROUGE、METEOR)不能准确衡量 QG 模型实际的生成质量,因此作者进一步提出了一种能够综合评估 QG 模型综合性能的指标,该指标综合考虑了 QG 的准确性和多样性,并且与下游 QA 模型的性能指标高度正相关。

论文标题:

On the Importance of Diversity in Question Generation for QA

收录会议:

ACL 2020

论文链接:

https://www.aclweb.org/anthology/2020.acl-main.500.pdf

Question Generation based on Pretrained LM

自 2017 年端到端问题生成任务被提出以来,问题生成的多样性就得到了广泛的研究,但是提高问题生成的多样性对问答系统的帮助到底有多大?

下面是作者构建的基于 RoBERTa+UniLM 的问题生成模型,可以看出,生成的问题不但在词汇层面上具有多样性,在语义层面上也具有多样性,也就是提出的问题在针对答案实体的疑问方面上均有所不同,甚至引入了上下文没包含的世界知识(原文没有提到 Tesla 有 mad scientist 的名声)。

世界知识的来源很有可能来自于预训练模型本身,在开放域文本生成中,以 GPT 系列为代表的大规模预训练语言模型已经展现出了非常稳健的文本生成能力,因此我们不妨将 QG 任务看作是既受限又开放的文本生成任务。

借助于强大的语言模型,QG 模型可以生成更多样,更准确的问题,从而提升 QA 模型的性能,这也可以看作是一种间接引入隐式外部知识的方式,这些隐藏在预训练 RoBERTa 上亿个参数内的外部知识能够从多方面提升 QG 模型的性能。

Evaluation / Diversity

目前的 QG 模型的构建都依赖于 beam search 解码生成,以极大似然估计的方式拟合人类标注的问题(Ground Truth, GT),并使用基于 n-gram 相似度的 BLEU 来评价模型,然而,人类标注的问题常常很少,不具有多样性,而多样性希望可以生成与 GT 不同的问题,这导致以极大似然作为目标的 QG 模型的多样性是受到抑制的。

Schlichtkrull, et al., 2020 [1] 也指出面向机器翻译的 BLEU、ROUGE、METEOR 这些指标不能准确地反映问题生成模型的多样性,因为这些指标的潜在假设是参考问句具有相同的表达,也就是假设只有词汇上的多样性,而没有内容上的多样性。

Question Generation using RoBERTa

促进问题生成的多样性有很多解决方案,总体来说可以分为两类,一类是以 CVAE 为代表的在训练阶段引入潜变量来促进多样性的方法,另一类是以随机解码为代表的在推断阶段优化解码方式的方法。

本文采用的是 Holtzman et al., 2020 [2] 提出的 top-p 核采样方法(nucleus sampling) ,因为该方法简单,高效,并且解码速度比 beam search 更快。

3.1 Model

作者训练了基于 RoBERTa+UniLM 的 QG 模型,具体做法是将文章和答案作为 prompt,以语言模型的方式生成问题,训练数据格式为 ,Attention 矩阵为 UniLM 中的 seq2seq LM 模式。

3.2 Fine-Tuning

采用 tearcher-forcing 的方式训练模型,最小化掩码部分的负对数似然函数:

其中 是 Ground Truth 的第 个词, 是模型给出的预测。

3.3 Inference

top-p 核采样的思想是截断采样空间,即设定 ,针对每个时间步 ,保留 softmax 概率最高且累积概率和刚好大于 的候选 token 子集 并重新标准化为概率分布:

这相当于将每一个时间步的候选 token 范围限制为高置信度区间,相比于 top-k 采样,top-p 核采样减小了生成低概率词的可能性。当 时,核采样就退化为了贪心解码。

Experiments and Results

4.1 In-Domain Experiments

作者利用 SQuAD 训练集训练问题生成模型,并为 SQuAD 开发集生成问题,然后在生成的问题集上训练基于 BERT-wwm 的 QA 模型,最后在 SQuAD 测试集上测试问答模型。下表给出了在不同训练集大小、不同模型大小和不同解码方式下问题生成模型的 BLEU-1、ROUGE-4 和 METEOR 分数,以及对应的 QA 模型的 分数。

可以发现,top-p 核采样的 值越高,QG 模型的 BLEU 分数越低,但对应的 QA 模型的 分数却越高,这说明多样性与 BLEU 这类自动评估指标是反相关关系

另外,尽管 beam search 在 QG 自动评价指标上取得了最高分,但对应 QA 模型的 分数却不高,这进一步说明了这些自动评价指标无法准确衡量 QG 模型的质量,而 beam search 的偏好是和这些评价指标的偏好是相同的,也就是以最大似然的方式拟合 Ground Truth,而无法生成 Ground Truth 以外的问题。

4.2 Out-of-Domain Experiments

为了测试 QG 模型的域外泛化能力,作者用上面在 SQuAD 训练集上训练的 QG 模型为 NewsQA 训练集生成问题,然后训练对应的 QA 模型并测试,测试结果进一步支持了上述结论,也就是随着核采样 值的增大,多样性越大,BLEU、ROUGE 分数越低,QA 越高。

4.3 Comparison with and Augmentation of Human Generation

为了评估 QG 模型(large-100%-NS@0.95)生成的问题的质量,作者将人类标注的问题和模型生成的问题做了对比。

如下表所示,可以发现在 SQuAD 数据集上,用生成的问题(SYNTH)和人类标注的问题(GT)训练的 QA 模型的表现非常接近(86.1 vs. 86.3),当为每个答案生成5个问题时,QA 超越了 GT (86.4 vs. 86.3),这很大程度上是由多样性带来的增益。

值得注意的是,利用在 SQuAD 上训练的 QG 模型为 NewsQA 生成的问题(SYNTH)来训练 QA 模型,比起利用人类标注的问题(GT)训练的 QA 模型的 分数仅仅差了 4 个点(63.8 vs. 67.9),这说明训练出的 QG 模型具有不错的零样本迁移能力

作者也评估了将生成的问题用于增强 QA 模型的效果,作者在大量的 Wikipedia 文章上生成了四百万个问题(SYNTH*)来微调  QA  模型,然后在 SQuAD/NewsQA 数据集上进一步微调该模型,这个过程类似于领域预训练的增强,模型的最终表现得到了约两个点的提升。

这表明在大规模数据集上训练的 QG 模型,能够很大程度上实现零样本的领域问题生成,或是在原始问答数据集的基础上进一步提升 QA 模型的表现。

Intrinsic Evaluation of Diverse QG

前面已经多次提到目前的评估指标不能准确评估 QG 模型的真实性能,因为它只关注是否准确拟合了人工标注的问题,为了进一步说明 ROUGE 指标不能反映多样性,作者将上面训练好的 32 个基于核采样的问题生成模型作为一个集合。

然后随机生成十万个子集,每个子集包含 个模型,按子集大小分箱,计算每个分箱内的子集的模型的 ROUGE 指标和 QA 指标的 Spearman 相关系数的平均值,结果如下图红色部分所示,这说明在统计意义上,ROUGE 指标与 QA 指标的相关性是比较弱的。

那么如何设计能够准确度量 QG 模型的生成质量的指标呢?我们可以将问题生成的质量评价分解为两部分:准确度、多样性,并分别将这两方面指标数学化,再将两者结合起来。

  • Accuracy:和语言模型的困惑度类似,我们可以将 对所有 取平均作为模型的准确度指标 ,其中 为人工标注问题 的第 的词的似然概率。

  • Diversity:虽然可以考虑用解码步骤候选 token 分布的平均熵来量化多样性,但熵是一个非线性增长且无界的度量指标,不容易与上面的准确度组合起来。而作者发现,当我们增加采样阈值 时,采样空间 的基数也随之增大,因此 也增大,作者的实验表明这个度量指标和 的熵有非常强的线性相关性(0.98),另外,注意到这个指标不像 ,在每个时间步 上, 是一个布尔值,也就是 要么在 中,要么不在,而对时间步取平均后,该指标就是一个取值为 的概率值,因此可以将该指标和准确度简单地做加权线性组合。

因此,作者最后提出的综合指标是上述两个指标的加权:

其中 为可调节的参数,反映了评估者对模型的偏好。在作者的实验中,该指标与QA 指标具有极强的正相关关系,不过要注意该指标只适用于问题生成,而不适用于更广泛的文本生成。另外这个指标有一定的实验性质,真实效果如何还需要进一步验证。

Conclusion

面向多样性的评价指标在以对话为代表的 NLG 任务上得到了广泛的研究,然而多样性的定义依旧不够具体,如何衡量、促进甚至控制生成文本不同方面的多样性也是一个值得关注的研究方向。

参考文献

[1] https://arxiv.org/abs/2008.07291

[2] https://arxiv.org/abs/1904.09751

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值