一般性网络错误 请检查网络文档_ICLR2019粗粒-细粒协同注意网络用于多证据问题的回答-CFC...

放假过来打卡----
分类-【MRC】--

28a8b417d2a62e81a5562b689563080d.png


Abstact
端到端神经模型在回答问题方面取得了显著进展,但最近的研究表明,这些模型隐含地假设答案和证据紧密地出现在一个文档中 [和跨文档的QA区别在哪里]。 在这项工作中,我们提出了粗粒-细粒协同注意网络(CFC),这是一个新的问题回答模型,结合了来自多个文档的证据信息。 CFC由粗粒度模块细粒度模块组成,粗粒度模块解释与查询相关的文档,然后找到相关的答案; 细粒度模块通过比较每个候选答案在所有文档中的出现情况,为每个候选答案打分。 我们使用共注意自注意层次结构来设计这些模块,学习强调输入的不同部分。 在Qangaroo WikiHop多证据问答任务中,CFC在盲测试集上获得了70.6%的最新测试结果,尽管没有使用 预训练,但其准确度仍比之前最好的测试高出3%。
1 Introduction
伸缩和实用的问答(QA)系统的一个要求是能够对多个文档进行推理,并将它们的信息组合起来回答问题。 虽然现有的数据集支持开发有效的端到端神经问题回答系统,但它们往往侧重于对单个文档的局部区域进行推理.(Hermann et al., 2015;Rajpurkar et al., 2016; 2018; Trischler et al., 2017) 例如,Min等人(2018)发现,斯坦福问答数据集90%的问题在一个文档中给定一句话就可以回答。在这项工作中,我们转而关注多证据质量保证,其中回答问题需要从多个文档收集证据(Welbl et al., 2018;(Joshi等,2017)
我们的多证据QA模型粗粒度细粒度协同注意网络(CFC),在给定一组 支持文档和查询的一组候选答案中进行选择。CFC的灵感来自于粗粒度推理和细粒度推理。 在粗粒度推理中,模型根据查询条件构建支持文档的粗摘要,而不知道有哪些候选项正确可用,然后为每个候选项打分。 细粒度推理中,模型匹配特定的细粒度上下文,在该上下文中,查询会提到候选对象,以便判断候选对象的相关性. 这两种推理策略分别由CFC的粗粒度模块和细粒度模块建模。 每个模块都使用了一种新的层次注意——一种共同注意和自我注意的层次结构——来组合 来自支持文档的信息,这些支持文档查询和候选人为条件。图1说明了CFC的体系结构。

36ddf9e32978984f4376acdf9e9d6ed5.png

CFC 盲Qangaroo WikiHop测试集上实现了一个最新的最先进的结果,准确率为70.6%,比之前的最佳结果高出3%,尽管没有使用预先训练过的上下文编码器。 此外,关于TriviaQA多段问答任务(Joshi等,2017),使用CFC传统跨度提取模型(Clark & Gardner, 2018)的结果进行排序,可以提高3.1%精确匹配精度F1提高3.0%。 我们的分析表明,粗粒度细粒度模块注意层次结构中的组件学会 将注意力集中在输入的不同部分。 这使得CFC能够更有效地表示长文档的大型集合。 最后,我们概述了CFC产生的常见错误类型,这些错误类型由难以聚合大量参考文献远程监控中的噪声难于处理的关系类型造成。2 Coarse-Grain Fine-Grain Coatteention Network(粗粒-细粒共聚焦网络) 好吧,有点对抗学习的意思在里面,两者共同约束最后答案的生成选择。CFC粗粒度模块细粒度模块对应于粗粒度推理细粒度推理策略。 粗粒度模块不知道候选对象的情况下总结支持文档: 它使用coattention构建支持文档和查询的依赖表示,然后使用self-attention生成粗粒度摘要。 相反,细粒度模块检索每个候选出现的特定上下文: 标识候选人的coreferent提及,然后使用coattention在这些提及查询之间构建相互依赖的表示。 虽然输入的低层编码模块之间共享,但是我们展示了这种分工允许每个模块中的 注意力层次结构 集中于输入的不同部分。 这使得模型能够更有效地表示大量潜在的长支持文档
假设我们有一个查询、一组Ns支持文档和一组Nc候选项。在不失一般性的前提下,让我们考虑第i个文档和第j个候选文档。 L_q , Ls , Lc------。我们首先使用双向门控循环单元(GRUs)对每个序列进行编码(Cho等,2014)。 这里,Eq、Es和Ec 是 查询、支持和候选的编码。Wq和bq是查询投影层的参数。d_hid是双向GRU的隐层大小。2.1 COARSE-GRAIN MODULE
CFC的粗粒度模块如图2所示,使用coattention构建支持文档Es查询Eq依赖表示,然后使用self-attention总结coattention上下文,将其与候选Ec进行比较。 对于单文档的问题回答模型,集中注意力和类似的技术至关重要(Xiong等,2017;王江,2017;徐等,2017)。

b3d31b5bdde470be406c867c8b300a45.png


我们首先计算文档查询之间的关联矩阵:

1f9de377ad655e482262b9826d438378.png

e35c0a78db92225afacc49f2792e7a6f.png

接下来,我们使用分层的自我注意总结coattention上下文—— 支持文档查询的一种相互依赖的编码。 首先,我们使用自我注意创建一个固定长度共注意上下文摘要向量(summary vector of the coattention context)。 我们使用 双层多层感知器(MLP)计算coattention context 每个位置的得分. 这个分数是标准化的,并用于计算共同注意上下文(coattention context)的加权和.

eb3538f77550ef30de3e14cf0fa5030b.png


其中,asi和a^si分别为共注意上下文第i个位置的未归一化得分归一化得分W2b2W1b1是MLP评分器的参数。Usi是共注意语境的第i个位置。
回想一下,Gs提供了Ns个支持文档的第i个摘要。 我们应用另一个自注意层来计算所有支持文档定长摘要向量。 然后,将该摘要候选答案的摘要相乘,得到粗粒度的分数 :

64e00c69cb81d837bcc7b1cf2d45d379.png

2.2 CANDIDATE-DEPENDENT FINE-GRAIN MODULE(候选人相关细粒模块)
粗粒度模块相反,细粒度模块(如图3所示)使用coreference resolution(simple lexical matching)1在支持文档中找到候选对象所在的特定上下文 。然后,使用一个自我关注层对每个提及进行总结,形成一个提及表示. 然后计算提及表示和查询之间的协注意。 这个共注意上下文是提及和查询的一种相互依赖的编码,它通过自我注意再次进行总结,以生成细粒度的摘要来为候选人打分。

d7d0c5367d6682bfa51755a39a427614.png

91789ef904d97a140c75163e750d173e.png

让我们假设在第i个支持文档中提到了m个候选人。让第k个提到对应于支持文档中的istart to iend令牌。我们使用与所述内容相对应的支持文档编码的范围内的自我关注来表示所述内容。
2.3 SCORE AGGREGATION(分数融合)

我们取粗粒分数和细粒分数之和y = yrough + yfine作为候选的分数。回想一下,我们之前的演示是关于Nc候选人的j的。我们将每个候选分数组合成最终的分数向量

R Nc。利用交叉熵损失对模型进行训练。
3 EXPERIMENTS我们以两项任务来评估CFC的有效性。第一个任务是在 WikiHop数据集UnMaskMask版本上回答多证据问题(Welbl等,2018)。第二项任务是 多段抽取问答任务TriviaQA,我们将其定义为 跨域重排序任务(Joshi et al., 2017)。在 前者的基础上,CFC实现了一个新的 最先进的结果。对于后者,重新链接一个 span-extract模型的输出(Clark & Gardner,2018年)使用CFC可以显著提高性能。


3.1 MULTI-EVIDENCE QUESTION ANSWERING ON WIKIHOP
Welbl等人(2018)提出了Qangaroo WikiHop任务来促进多证据问题回答的研究。该数据集是通过将文档语料库(Wikipedia)中的实体与知识库(Wikidata)链接起来构建的。 这将生成一个文档和实体的二部图(bipartite graph),其中的边标记文档中实体的出现。 因此,知识库事实三元组对应于从主题到结果图中的对象的路径。沿着此路径的文档构成事实三元组的支持文档。 Qangaroo WikiHop任务(如图4所示)如下:给定一个查询,即事实三元组的主题和关系,似是而非的候选对象的一个集合,并为候选提供相应的支持文件,选择正确的候选作为答案。

83289d485ddade20eb1eadfcc014e759.png

WikiHop非屏蔽版本原始文本表示候选答案,而屏蔽版本用随机抽样的占位符替换它们,以消除频繁答案和支持文档之间的相关性。官方的盲测试评估是使用非蒙面版本进行的。

我们使用Stanford CoreNLP对数据进行标记(Manning et al., 2014)。我们使用固定手套嵌入(Pennington等,2014)以及字符ngram嵌入(桥本等,2017)。 我们将符号查询关系分解为单词。所有模型都使用ADAM进行训练(Kingma & Ba, 2015)。我们在附录A.2中列出了最佳性能模型的详细实验设置和超参数。
我们将CFC的性能与表1中WikiHop排行榜上的其他模型进行了比较。CFC在WikiHop的屏蔽和非屏蔽版本上都实现了最先进的结果。特别是在盲的、外置的WikiHop测试集上,CFC达到了70.6%的最佳准确度。Cao等人(2018)之前的最先进的结果使用了预先训练的上下文编码器,这导致了跨NLP任务的一致改进(Peters等人,2018)。

af253c03249ac6c9b34d546380efb5e4.png


尽管没有使用预先训练过的上下文编码器2,但我们的性能比这个结果好3%。此外,我们还展示了粗粒度模块和细粒度模块之间的分工,允许每个模块的注意层次结构集中于输入的不同部分。这使CFC能够更有效地为WikiHop中可能很长的文档的大型集合建模3.2 RERANKING EXTRACTIVE QUESTION ANSWERING ON TRIVIAQA为了进一步研究模型的有效性,我们还对TriviaQA (Joshi et al., 2017)进行了实验。TriviaQA是另一个大规模的问答数据集,需要从多个句子中收集证据。 类似于Hu等人(2018b);我们将原始的TriviaQA任务分解为两个子任务:提出可信的候选答案重新链接候选答案
我们使用BiDAF++处理第一个子任务,Clark & Gardner(2018) 的竞争跨度提取问题回答模型,以及使用CFC处理第二个子任务。 为了计算重新链接的候选列表,我们从BiDAF++中获得了前50名的候选答案。 在训练中,我们使用给出F1最大值的候选答案作为训练CFC的金标签。

5aed58321ace48e0081e26d71ea4103f.png


表2中的实验结果表明,使用相对于只使用跨度提取问题回答模型,CFC提供了一致的性能收益。特别是,无论从span提取模型获得的候选答案集是否包含正确答案,使用CFC重新链接都可以提高性能。 在整个TriviaQA开发集上,使用CFC进行重新排序,获得3.1% EM和3.0% F1的增益,说明CFC可以进一步细化跨抽取问题回答模型产生的输出3.3 ABLATION STUDY

aae54b4f7da46fbcf0656f79209a3e5e.png

表3显示了粗粒度模块细粒度模块以及模型决策(如self-attention和双向gru)的性能贡献。粗粒度模块和细粒度模块都对模型性能有显著的贡献。 将自注意层替换为均值池,将双向gru替换为单向gru,降低了性能。 用嵌入字上的投影替换编码器会导致显著的性能下降,这表明捕获位置信息的上下文编码对这项任务至关重要。

2ec2028b7187f970ee5e650f0d883c56.png

图5显示了粗粒度模型(-fine)和细粒度模型(- rough)的模型预测误差在数据集的不同长度上的分布。 在几乎所有长度测量中,纯细粒模型的性能都低于纯粗粒模型。这可能是由于支持文档中的候选项很难进行共引用解析——我们使用的精确词汇匹配技术往往产生高精确度和低召回率。 但是,对于具有大量支持文档或长支持文档的示例,只使用细粒度的模型匹配或优于只使用粗粒度的模型。这可能是因为我们使用的实体匹配协引用解析分层注意更精确地捕获文档内部和文档之间的依赖关系。3.4 QUALITATIVE ANALYSIS(定性分析)我们检查分层注意力地图产生的CFC的例子WikiHop发展集。我们发现coattention层始终关注类似的短语之间的文档和查询,而低水平self-attention层捕获短语(描述文档描述的实体的特征)。因为这些注意力地图非常大,所以我们没有把它们包含在正文中,而是让读者参考附录A.3。

2e2363f950dbc7e8696cf37a1bef38d4.png

c96e5b057cbe2bab0713227956053250.png

式15所示,粗粒度 摘要自我注意 倾向于集中于表示查询中对象相关信息的支持文档。 图6举例说明了这一点,其中self-attention集中在与文学作品“the”相关的文档上“巨魔”,即那些关于巨魔的,它的作者茱莉亚唐纳森和古斯堪的纳维亚语。 【粗粒度集中于和query相关的支持文档上面】

6a8a5dbb43b7b60a5e235f9ce4c1c593.png

3de2eb7ed676edb8c8a4c2fd113193da.png

与此相反,细粒度的在提及表示之上共同注意,如公式19所述,倾向于关注查询的关系部分。图7说明了这方面的一个例子,其中共同注意的重点是提到的词与“位于行政领土实体”一词之间的关系。更多例子的注意图可以在附录A.3中找到。3.5 ERROR ANALYSIS
我们检查了在WikiHop开发集中产生的100个错误,并将它们分为四种类型。我们在附录A.4中列出了这些错误的标识符和示例。 第一类(42%的错误)是由于模型聚合了错误的引用(the model aggregating the wrong reference)。 例如,在对杰米·伯纳克郡国籍的查询中,该模型正确地处理了 杰米·伯纳克郡南部出生 和拉纳克郡的相关文件苏格兰。 然而,它错误地把重点放在后一份文件中的“英格兰”一词,而不是“苏格兰”。我们假设减少这类错误的方法包括使用更健壮的预先训练的上下文编码器(McCann等,2017;Peters等人,2018)和协参解析共指消解。 第二种类型(28%的错误)来自无法回答的问题。例如,支持文档没有为查询“心爱的流浪者”的叙事位置提供戏剧“心爱的流浪者”的叙事位置。 第三种类型(22%的错误)来自于产生多个正确答案的查询。例如qilakitsoq的查询实例,该模型预测的是“考古遗址”,比答案“城镇”更具体。 第二类和第三类错误强调了使用远程监控创建大型数据集(如WikiHop)的难度。 第四种类型(8%的错误)是由复杂的关系类型(如父分类单元)造成的,这些关系类型很难使用预先训练的词嵌入来解释。减轻这类错误的一种方法是使用可调符号嵌入和固定单词嵌入嵌入关系4 RELATED WORK
4.1 Question answering and information aggregation tasks
QA任务跨越多种来源,如Wikipedia、news articles、books and trivia。 大多数QA任务很少需要对多个证据进行推理。如果需要这样的推理,通常会在单个文档中以协引用解析的形式出现(Min et al., 2018)。 相比之下,由于Qangaroo WikiHop数据集的构造,它鼓励对跨文档的多个证据片段进行推理。 类似的任务还需要聚合来自多个文档的信息,即以查询为中心的多文档摘要(query-focused multi-document summary ization),其中模型总结给定输入查询的文档集合(Dang, 2006;Gupta等,2007;Lu等,2013)。4.2 Question answering models. 最近大规模QA数据集的开发导致了大量端到端QA模型。 这些包括用于closize -form QA的早期文档注意模型(Chen et al., 2015)、多跳内存网络(Weston et al., 2015;苏赫巴托尔等,2015;库马尔等人,2016),以及跨序列注意模型用于span-extraction QA。
交叉序列注意
的变异包括 match-LSTM (Wang & Jiang, 2017)、 coattention (Xiong等,2017) ;双向注意(Seo等,2017) 和 查询上下文注意(Yu等,2018)。 最近的进展包括使用强化学习来鼓励探索可能存在不精确跨度匹配的紧密答案(Xiong et al., 2018;Hu et al., 2018a),使用卷积和自我关注对局部和全局交互进行建模(Yu et al., 2018),以及添加重新链接模型来细化 span-extract 输出(Wang et al., 2018). 我们的工作建立在以前单文档QA工作的基础上,并将其推广到跨文档的多证据QA
4.3 Attention as information aggregation
神经注意
已成功地应用于各种任务的总结和汇总信息。 Bahdanau等人(2015)演示了如何使用对编码器的关注来捕捉用于机器翻译的软对齐。在关系提取(Zhang et al., 2017)、摘要(Rush et al., 2015)和语义分析(Dong & Lapata, 2018)中也使用了类似的注意类型。
除了文本的问题回答外,作为编码两个输入之间的相互依赖表示的方法共注意也成功地应用于视觉问题回答(Lu et al., 2016)。 同样,自我关注也被证明是一种有效的手段,可以在文本蕴涵中组合信息(Shen et al., 2018;Deunsol尹,coreference resolution (Lee et al., 2017), dialogue state-tracking (Zhong et al., 2018), machine translation (Vaswani et al., 2017), and semantic analysis (Kitaev & Klein, 2018)。 在CFC中,我们提出了一种在层次结构中结合自我注意和共同注意的新方法,从而为大量潜在的长文档构建有效的条件和相互依赖的表示4.4 Coarse-to-fine modeling
层次由粗到细的建模
是一种对长文档进行建模的有效技术,它逐渐引入了复杂性Petrov(2009)对该技术进行了详细的概述,并展示了它在解析语音识别机器翻译方面的有效性。 神经粗到细的建模也被应用到问答中(Choi et al., 2017;Min等,2018;Swayamdipta等,2018)和语义分析(Dong& Lapata, 2018)。 CFC的粗粒度和细粒度模块同样关注于提取输入的粗粒度和细粒度表示。与以前的工作中粗模块先于细模块不同,CFC中的模块是互补的。 5 CONCLUSION提出了一种基于粗粒度推理和细粒度推理的多证据问答新模型CFC。在WikiHop问答任务中,CFC的测试准确率达到了70.6%,比之前的方法提高了3%。 我们在分析中发现,互补的粗粒度和细粒度CFC模块关注输入的不同方面,是表示大量长文档集合的有效方法

附录 A
A.1 COREFERENCE RESOLUTION
在这项工作中,我们使用简单的词法匹配,而不是使用全尺寸的协引用解析系统。后者的一体化仍然是今后工作的一个方向。为了对给定的候选对象执行简单的词法匹配,我们首先对文档和候选对象进行标记。每次候选令牌在文档中出现时,我们提取相应的令牌跨度作为参考
A.3 ATTENTION MAPS
本节包括由CFC生成的关于WikiHop开发部分的注意地图。我们包括细粒提到的自我注意和共同注意,粗粒摘要自我注意,和文档自我注意和共同注意,为得分最高的支持文档,由总结自我注意得分排名。查询可以在coattention映射中找到。我们用答案作为小节的标题。
A.4 ERROR ANALYSIS
本节包括 标识符和在错误分析期间在开发集中发现的无法回答的问题的示例。特别是,这些错误对应于CFC在WikiHop的dev split上所犯的100个随机抽样错误。
A.4.1 TYPE 1 ERROR: AGGREGATION OF WRONG REFERENCE 42/100
A.4.2 TYPE 2 ERROR: UNANSWERABLE 28/100
A.4.3 TYPE 3 ERROR: MULTIPLE CORRECT ANSWERS
A.4.4 TYPE 4 ERROR: COMPLEX RELATION TYPES

【总结】本篇文章算是一个很经典的(目前我读过的文章中)的模型了,这个不仅仅对于这个数据集而言,这种思想我觉得是可以用到各个数据集中去的,说白了就是加了一种约束条件,或者使用多个约束条件,连同来训练最后的模型,不同的是这篇文章联合的目标之间有很强的的互补性质,当然也可使用多个一起联合训练,只是最后分数聚合时候的权重可以设置为动态学习到的吧。 各个网络在学习的过程中总有信息的流失以及很多隐藏信息把握不到,比如角色信息,句子之间的共指,重复以及说明解释。 还有过滤不重要的句子等等。 都可以使用这种思想来进行联合训练,只是最后的效果不得而知。。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值