2020EMNLP新任务:AMBIGQA——模糊QA论文阅读


今年发论文初步决定从这篇新任务入手,任务有价值并且有待开发空间。先挖个坑读一读。(先写这些吧,后续研究研究协同训练和预训练模型再更新想法)

背景

该任务提出了AMBIGQA,目的是解决开放域问答系统问题答案模糊的任务。简单来说就是把消歧引入到了QA领域中,且是open-domain的。

#举个例子
Q:《哈利波特:魔法石》什么时候上映的?
Para:《哈利波特:魔法石》在2001114号在欧洲上映,……,20011126日在北美上映时,就已经斩获了两亿美元票房的佳绩……(数据都是瞎编的)
A:???

这是一个很典型的模糊并且有歧义问题。就如我们做阅读理解一样,问题需要有一个条件,我们才容易作出回答。这篇论文就在这个基础上提出一个模型,它能够根据已有文章或文本段落,对原问题进行重写(可能会重写出很多问题),同时对重写的问题做出回答。

# 再举个例子
Q:《哈利波特:魔法石》什么时候上映的?
Para:《哈利波特:魔法石》在2001114号在欧洲上映,……,20011126日在北美上映时,就已经斩获了两亿美元票房的佳绩……(数据都是瞎编的)

Q1:哈利波特什么时候在欧洲上映的?
A1:11.4
Q2:哈利波特什么时候在北美上映的?
A2:11.26

总结一下,论文这时候就在暗示解决这个问题要分成两步。首先是问题消歧,即对原本的问题进行重写,将原问题中引起歧义的部分进行解释或缩小范围(当然加条件只是一种模糊的情况,缩小范围/增加条件都是一种应对方法)。接着就是对重写的问题进行回答。

原论文中明确指出了该任务的必备环节:(1)找到一组不同的、同样可信的问题答案,(2)对问题进行最少但不含糊的重写,以澄清导致每个答案的解释。

数据集

论文本身提出了一个其自己众包构建的规模为1.4w的数据集,其是基于2019(Kwiatkowski et al., 2019)

数据集中包含了四个部分,包括原问题,问题答案来源,其他QA模型生成的答案,和AMBIGQG生成的若干问题及其对应答案。在这个数据集中,也包含了答案唯一的情况,即并不模糊的问答也被包含了进去。

数据集包含了多种模糊问题的类型,在论文中提到了六种,可以归纳为活动特殊性、比例模糊性、实体统称模糊性、答案平行性、时间模糊性、问题多跳性六种可能导致问答国成导致模糊的原因。

评估准则

评估系统由相似度和F1组成,详见论文内容。

基线模型

以下为论文原文:

we present a baseline AMBIGQA model combining ideas from recent advances in open-domain QA (Karpukhin et al., 2020) and generation (Lewis et al., 2020). Given a prompt question q, our model predicts answers y1..yn, and generates corresponding questions x1..xn conditioning on q, the answers y1..yn, and the evidence passages. A novel cotraining step also allows the model to leverage the partial supervision available in NQ-OPEN.

总结来说,模型分为几个部分。首先,对于已知问题 q q q,模型能够预测多个答案 x 1 , x 2 … … x n . x_1,x_2……x_n. x1,x2xn.同时能够生成这 n n n个答案相对应的 y 1 , y 2 … … y n . y_1,y_2……y_n. y1,y2yn.以及相关的文章段落(context)。

多答案预测

在生成问题的多种可能的答案处理上,作者引用了2020EMNLP上facebook与华盛顿大学、普林斯顿大学合作的一篇论文(Karpukhin et al., 2020). 这篇论文解决了开放域问答中的上下文检索精准度的问题(这里开个坑,以后研究开放域问答少不了这一步)。

总结说,这一步是在先前模型上做了一些调整。在原DPR模型上,作者将BERT改成了BART,并且将原模型的输入标记数增加了(详情改变参考论文说明),论文并没有说明这么做的原因,可以思考一下。DPR模型的输入输出详见DPR论文的code link.但是总体的输入输出并没有太大变化。同时,DPR设计的初衷其实是为了生成单一答案的,这里其实也可以稍微说明一下怎么生成多个可能的答案。

问题消歧

该模型根据q,目标答案 y i y_i yi,其他答案 y 1 . . y i − 1 , y i + 1 . . y n y_1..y_{i-1},y_{i+1}..y_n y1..yi1yi+1..yn 以及SPANSEQGEN使用的顶部段落的级联生成每个问题 x i ( i = 1.. n ) x_i(i = 1..n) xi(i=1..n) 。 我们对NQ-OPEN进行预训练,以生成给出答案和段落的问题,然后根据AMBIGNQ中的完整任务数据对其进行微调。

弱监督联合训练

鉴于在NQ-OPEN中普遍存在未标记的歧义,我们介绍了一种将NQ-OPEN注释视为弱监督的方法,并学会了发现数据中的潜在歧义。 我们修改了算法1中所述的协同共训练算法。我们迭代地增加了AMBIGNQ( D f u l l D_{full} Dfull)的训练集 D ^ f u l l \hat{D}_{full} D^full和NQ-OPEN( D p a r t i a l D_{partial} Dpartial)预测的silver data,大多数 在 D ^ f u l l \hat{D}_{full} D^full上训练的SPANSEQGEN模型的集合C。关键步骤是在预测期间从NQ-OPEN注入已知答案 y j y^j yj作为SPANSEQGEN输出的前缀。 在每个步骤中,如果大多数C预测一个附加答案,则假定我们发现了假阴性,并将结果添加到完整的训练集中 D ^ f u l l \hat{D}_{full} D^full中。 如果所有模型都预测没有其他答案,则将示例添加到完整的 D ^ f u l l \hat{D}_{full} D^full中,并将 y j y^j yj作为单个答案。

REFERENCE

[1]Natural Questions: a benchmark for question answering research.2019,TACL.
[2]Dense Passage Retrieval for Open-Domain Question Answering.2020,EMNLP

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值