论文笔记1:《基于跨文章答案验证的多文章机器阅读理解》(ACL 2018) Yizhong Wang等

0 摘要
真实网络数据的机器阅读理解(MRC)往往需要机器通过分析搜索引擎检索到的多个文章来回答问题。与单文章MRC相比,多文章MRC更具有挑战性,因为可能从不同文章得到多个混淆候选答案。为了解决者问题,本文提出端到端的神经网络,使得不同文章得到的候选答案可以基于它们代表的内容互相验证。具体地讲,我们的模型联合训练三个模块,即基于三个因素预测答案:答案的边界、答案内容及多文章间答案验证。实验结果显示,我们的方法在英语MS-MARCO数据库及中文DuReader数据库上效果远优于基准线并取得很好的成绩,两者都是实际语境中为MRC设计的数据库。

1 介绍
机器阅读理解(MRC)使计算机可以从文本数据中获取数据并回答问题,这被看作构建普遍智能引擎的关键步骤。近几年MRC社区发展迅猛。随着多数据库的发布,MRC任务已经从早期填空进阶到从单文章中抽取答案,再到最近从网络数据中回答更复杂的问题。
研究者为MRC任务付出巨大的努力开发模型,尤其是单文章的答案抽取。这是一个里程碑,几个MRC方法在SQuAD数据库效果已超过人工。然而,仅仅是在维基百科文章中的成功是不够的,终极目标是理解整个网络。因此,几个新数据库,在包含搜索引擎更真实语境下设计MRC任务。
多文章MRC内在挑战是所有文章是问题相关的又往往是独立写作的,可能存在多个混淆候选答案。表1展示了MS-MARCO中的一个例子。可以看出,所有答案都是与问题语义匹配的,但字面上又很不相同甚至是错误的。Jia and Liang(2017)指出,对MRC模型来说,区分混淆候选答案是非常困难的。因此,针对多文章MRC问题需要特别的考虑。
本文中,我们提出从不同文章中验证最终正确答案,剔除不正确答案。我们的假设是正确答案出现更频繁并具有一些共性,错误答案各不相同。表1中的例子阐明了这种现象。从最后四段中抽取的答案都是正确答案,互相语义相关,另外两段中答案错误且不能从其他段落中得到支持信息。就像人工往往比较不同来源中的候选答案推导出最终答案,希望MRC模型可以在跨文章答案验证过程中优化。

本文模型总体框架如图1,包含三个模块。首先是答案边界模型(Seo et al.,2016),识别答案的开头及结尾位置找到每篇文章的候选答案(图2)。第二,建模文章中抽取的候选答案意义,利用内容得分从另一角度衡量候选答案的质量。第三,根据候选答案代表的含义互相印证。希望候选答案可以根据语义相关性互相提供支持,最终判断答案是否正确。因此,最终答案被三种因素决定:边界、内容及跨文章答案验证。这三步骤分别是不同的模型,在我们端到端框架中联合训练。我们在MS-MARCO和DuReader数据库上做实验。实验显示,效果远优于基准线并取得很好的成绩。

2 方法
图1展示了多文章MRC模型的全貌,由三部分组成:预测边界、答案建模及答案验证。首先,我们构建问题与文章。参考Seo(2016),我们对每篇文字计算question-aware表示。基于表示,我们利用Pointer网络(Vinyals2015)预测答案边界。同时,通过答案内容模型,我们评估每个单词是否应在答案中,获得答案表示。接下来,在答案验证模型中,候选答案寻找互相支持信息,计算得分显示答案是否正确。最终结果由答案边界、内容及验证得分共同决定。

2.1 问题与文章模型
给定问题W和搜索引擎检索到的文章{Pi},任务是找到问题的最优简明答案。首先,我们正式给出建模问题与文章的细节。
编码器 我们首先综合词嵌入及字符嵌入将每个单词映射到向量空间。然后,利用双向LSTM编码问题与文章。
在这里插入图片描述
其中,在里插入图片描述在这里插入图片描述分别是t个词单词级别及字符级别的嵌入。是问题中第t个词的编码向量。与之前的论文简单组成文章不同,我们在编码及匹配步骤独立处理文章。

Q-P匹配 MRC的一个核心步骤是匹配问题与文章,使重要信息被高亮。我们利用注意力流层从两个方面实现Q-P匹配。问题与文章的相似矩阵转化成一个简单版本,问题的第t个单词与文章的第k个单词的相似性计算如下:
在这里插入图片描述
然后,内容-问题注意力和问题-内容注意力严格依照Seo(2016),获得文章表示。鉴于空间有限,我们不给出细节。另外,利用另一个双向LSTM模型融合上下文信息,获得文章中每一个单词的新表示,作为匹配输出:

得到文章表示,引入本文模型的三个部分。

2.2 预测答案边界
从文章中抽取答案,主流研究试图定位答案边界,被称作边界模型。根据WANG2016我们采用Pointer网络(Vinyals2015)计算每个单词是答案开始或结尾的概率。
在这里插入图片描述
利用注意力权重,文章中第k个单词是答案开头或结尾的概率分别是和。注意Pointer网络应用于所有文章,所以文章间的概率是可以比较的。边界模型可以最小化真实开始及结尾指标的负对数概率得到:
在这里插入图片描述
其中,N是数据库样本数,yi是真实的开始及结尾位置。

2.3 回答内容建模
之前研究利用边界模型找到最大化边界得分的答案范围作为最终答案。然而,我们文章中,除了定位候选答案,还建模他们的意思以备后面验证。一个直觉的方法是抽取完答案再计算候选答案的表示,但非常难训练。这里,我们提出一个新颖的方法,基于概率获得候选答案的表示。
具体来说,我们改变传统MRC模型的输出层。除了预测文章中单词的边界概率,我们预测每个词是否应包含在答案里。第k个单词的内容概率是:
在这里插入图片描述
训练内容模型非常直观。我们转换边界标签为连续分割,即单词在答案里标签为1否则为0.因此,定义平均交叉熵为损失函数:
在这里插入图片描述
内容概率在边界之外提供另一个视角衡量答案的质量。而且,以此概率,我们将文章i提取出的答案作为文章中所有词嵌入的加权和。

在这里插入图片描述
2.4 多文章答案验证
边界模型及内容模型致力于单文章中抽取及建模答案,很少考虑跨文章信息。然而,像第一部分阐释的,从不同文章中得到多个候选答案,有的会误导MRC模型得到错误预测。从不同文章汇总信息挑出最优候选是必要的。因此,我们提出新的方法,候选答案互相验证。
给定候选答案{r^Ai},每一个候选答案依据注意力机制得到支持信息:
在这里插入图片描述
其中r-是从其他文章得到的注意力加权的验证信息,与原始答案代表r得到全连接层。
在这里插入图片描述
不同文章得分归一化得到A验证得分。
在这里插入图片描述
为了训练验证模型,我们定义正确文章中的答案为正确答案。损失函数是正确答案的负对数概率。
在这里插入图片描述
其中,y是正确答案的指标。

2.5 联合训练与预测
像上面讨论的,我们在多文章MRC模型定义三个目标:找到答案边界,预测单词是不是在答案里,交叉文章验证找到最佳答案。像我们设计的,三个任务共享词向量、编码器和匹配层。因此,我们采用多任务训练,联合目标函数如下。
在这里插入图片描述
我们先抽取每篇文章中边界得分最高的答案,边界得分是答案开始及结尾概率的乘积。对每个候选答案,平均所有词在答案中的得分。利用验证模型得到答案的验证分。因此,挑选最终答案基于以上三个分数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值