Cognitive Graph for Multi-Hop Reading Comprehension at Scale解说

最新推荐文章于 2022-02-16 21:20:14 发布

小有名气的可爱鬼

最新推荐文章于 2022-02-16 21:20:14 发布

阅读量674

点赞数 2

分类专栏： NLP 机器学习

本文链接：https://blog.csdn.net/weixin_42305378/article/details/107561052

版权

对于该篇文章的解说及其部分代码可以看下面的链接：

https://www.cnblogs.com/conghuang/p/11827142.html

下面是论文的翻译：

我们提出了一个新的CogQA框架来解决web文档中的多跳问题。该框架以认知科学中的双过程理论为基础，通过协调隐式提取模块（系统1）和显式推理模块（系统2），在迭代过程中逐步构建认知图。在给出准确答案的同时，我们的框架还提供了可解释的推理路径。具体地说，我们基于BERT和图形神经网络（GNN）的实现可以有效地处理HotpotQA-fullwiki数据集中的数百万个多跳推理问题文档，在排行榜上取得了34.9的联合F1得分，而在最佳竞争对手中只有23.6分

1 Introduction

深度学习模式在机器阅读理解方面取得了长足进步，甚至在包括SQuAD在内的单段问答（QA）基准测试中甚至超过了人类（Wang等人，2018b；Devlin等人，2018；Rajpurkar等人，2016）。然而，要跨越机器与人类阅读理解能力的鸿沟，还有三个主要挑战摆在面前：1）推理能力。正如对抗性测试（Jia和Liang，2017）所揭示的那样，单段问答模型倾向于在与问题匹配的句子中寻找答案，这并不涉及复杂的推理。因此，多跳QA成为下一个需要攻克的前沿（Yang et al.，2018）。2）可解释性。显式推理路径能够验证逻辑的严密性，对于QA系统的可靠性至关重要。HotpotQA（Yang等人，2018）要求提供支持句子的模型，这意味着无序和句子级的解释能力，然而人类可以用一步一步的解决方案来解释答案，这表明了一种有序和整体性的解释能力。3）可扩展性。对于任何实用的QA系统，可伸缩性是必不可少的。现有的基于机器理解的问答系统一般遵循DrQA中的检索抽取框架（Chen et al.，2017），通过预检索将源的范围缩小到几个段落。与人类在海量内存中通过知识进行推理的能力相比，该框架是单段问答和可伸缩信息检索之间的简单折衷（Wang等人，2003）。

因此，对这些挑战的解决方案的见解可以从人类的认知过程中汲取。双重过程理论(Evans, 1984,2003,2008;Sloman,1996)认为，我们的大脑首先通过一个被称为系统一的内隐的、无意识的、不敏感的过程来跟随注意力检索相关信息，然后在此基础上进行另一个明确的、有意识的、可控的推理过程——系统二。系统1可以根据请求提供资源，而系统2可以通过在工作记忆中执行顺序思维来深入研究关系信息，后者速度较慢，但具有人类独特的理性（Baddeley，1992）。对于复杂的推理，这两个系统是协调的，以执行快速和缓慢的思考迭代（Kahneman和Egan，2011）。

在本文中，我们提出了一个认知图问答（CogQA）框架，有助于解决上述所有问题。受双重过程理论的启发，该框架由功能不同的系统1和2模块组成。系统1从段落中提取与问题相关的实体和答案，并对其语义信息进行编码。提取的实体被组织成一个认知图（图1），类似于工作记忆。然后系统2在图上执行推理过程，并收集线索以指导系统1更好地提取下一跳实体。重复上述过程直到找到所有可能的答案，然后根据系统2的推理结果选择最终答案。介绍了一种基于BERT（Devlin et al.，2018）和图神经网络（GNN）（Battaglia et al.，2018）的高效实现。

我们的贡献如下：

我们提出了一种新的基于人类认知的多跳阅读理解问答框架。
我们表明，我们框架中的认知图结构提供了有序和整体的可解释性，适合于关系推理。
我们基于BERT和GNN的实现在所有指标上大大超过了以前的工作和其他竞争对手。

2 Cognitive Graph QA Framework 认知图问答框架

人类的推理能力主要依赖于信息的关系结构。直观地，在多跳问答的认知过程中，我们采用有向图结构进行逐步推理和探索。在我们的阅读理解设置中，认知图G中的每个节点对应于一个实体或可能的答案x，也可以互换地表示为节点x。提取模块System 1，读取实体x的引言段落第[x]段，并从该段落中提取候选答案和有用的下一跳实体。然后用这些新节点扩展G，为推理模块system2提供显式结构。在本文中，我们假设System 2通过计算节点的hid- den表示X来进行基于深度学习的推理而不是基于规则的推理。因此，系统1也需要总结para[x]到一个seman- tic向量，作为初始隐藏表示时，伸展span。然后系统2基于图结构更新X作为下游预测的推理结果。

由于认知图中明确的推理路径，可解释性得到了享受。除了简单的路径，认知图还可以清楚地显示联合或循环的推理过程，新的前辈可能会带来关于答案的新线索。在我们的框架中，线索是一个形式灵活的概念，参考前人的资料，为指导系统1更好地提取跨度。除了新添加的节点外，具有新的引入边的节点也需要根据新的线索进行重新访问。我们把它们都称为边界节点。

可伸缩性意味着QA的时间消耗不会随着段落数的增加而显著增加。我们的框架在本质上可以伸缩，因为引用所有段落的唯一操作是通过标题索引访问某些特定的段落。对于多跳问题，传统的检索抽取框架可能会牺牲后续模型的潜力，因为距离问题多跳的段落共享的常用词很少，与问题的语义关系也很少，导致检索失败。然而，