©PaperWeekly 原创 · 作者 | 刘兴贤
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
本文是一篇有关复杂知识库问答(Complex KBQA)的综述,主要围绕 Complex KBQA 遇到的挑战、现有的方法以及解决方案角度来叙述。
目前两类主流的复杂KBQA方法,是基于语义句法分析(SP-based)的方法和基于信息检索(IR-based)的方法。本文从这两个类别的角度对目前最先进的方法进行了全面的回顾。
论文题目:
A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions
论文地址:
https://arxiv.org/abs/2105.11644
该论文被收录于 IJCAI 2021,作者来自新加坡管理大学、人大、北京大数据管理分析中心重点实验室。
知识库问答(KBQA)旨在通过知识库回答问题。近年来,大量的研究集中在语义或句法上复杂的问题上。本文详细地总结了复杂 KBQA 的典型挑战和解决方案。首先介绍 KBQA 任务的背景。接下来,我们介绍了两类主流的复杂 KBQA 方法,即基于语义句法分析(SP-based)的方法和基于信息检索(IR-based)的方法。
然后,我们从这两个类别的角度对先进的方法进行了全面的回顾。具体地说,我们详细说明了他们对典型挑战的解决方案。最后,总结并讨论了未来的研究方向。
Complex KBQA Example
对于问题“谁是 The Jeff Probst Show 提名的 TV Producer 的第一任妻子?”,可以看到该问题涉及了 7 个实体,为了回答该问题,需要 KBQA 系统有一定的推理能力与数值计算能力,然而这样的问题对于目前的 KBQA 系统是相当困难的。
Main Challenge
1. 现有的基于语义解析(SP)的方法中使用的解析器很难覆盖各种复杂的查询(例如,多跳推理、约束关系和数值运算)。类似地,以前的基于 IR 的方法可能无法回答复杂的查询,因为它们的排序是在没有可追踪推理的小范围实体上执行的。
2. 复杂问题中的关系和主语越多,潜在逻辑形式的搜索空间就越大,这将大大增加计算成本。同时,更多的关系和主题可能会使基于信息检索的方法检索所有相关实体进行排序更加困难。
3. 这两种方法都将问题理解作为首要步骤。当问题在语义和句法方面都变得复杂时,要求模型具有很强的自然语言理解和泛化能力。
4. 为复杂问题标注通向答案的基本事实路径的成本很高,通常,只提供问答对。这表明基于语义解析(SP)的方法和基于信息检索(IR)的方法必须分别在没有正确逻辑形式和推理路径注释的情况下进行训练。如此微弱的监督信号给这两种方式都带来了困难。
Mainstream Approaches
基于语义解析的方法(SP)
该方法旨在将自然语言的问句解析成逻辑形式,通常步骤如下:
(1)使用一个问题理解模块,对句子进行语义和语法解析,获得编码后的问题。
(2)利用逻辑解析模块将编码后的问题转化为一个还未实例化(未填充具体实体关系)的逻辑形式。
(3)针对知识库,将逻辑形式与结构化的知识库进行语义对齐,进一步实例化上一步的逻辑形式。
(4)对知识库执行解析后的逻辑形式,通过知识库执行模块生成预测答案。
基于信息检索的方法(IR)
该方法旨在使用问题中传达的信息,直接从知识库中检索并排序答案。
(1)确定中心实体,并从知识库中提取出特定于问题的子图。理想情况下,该图应该包含所有语文题相关的实体和关系。
(2)通过一个问题表示模块,对输入的问题进行编码,该模块分析问题的编码并输出推理指令,这些指令并非具有明确含义的,而是一个向量。
(3)基于图的推理模块通过基于向量的计算进行语义匹配,将信息沿着图中的相邻实体传播并聚合。
(4)利用答案排序模块根据推理结束时的推理状态对图中的实体进行排序。
Overview
总体而言,基于 SP 的方法可以通过生成可表达的逻辑形式来产生更具解释性的推理过程。然而,它们严重依赖于逻辑形式和解析算法的设计,成为性能提高的瓶颈。作为对比,基于 IR 的方法对图结构进行复杂推理,并进行语义匹配。这样的方法适合流行的端到端训练,并使基于 IR 的方法更易于训练。然而,推理模型的黑盒结构使得中间推理更难解释。
Challenges and Solutions
5.1 Semantic Parsing-based Methods
5.1.1 Overview
基于 SP 的方法遵循先分析后执行的过程,即问题理解、逻辑分析、知识库实例化和知识库执行。对于复杂的 KBQA,这些模块将遇到不同的挑战。
(1)当问题在语义和句法方面都比较复杂时,问题理解变得更加困难。其次,逻辑分析必须涵盖复杂问题的各种查询类型。
(2)涉及更多关系和主题的复杂问题会极大地增加解析可能的搜索空间,从而降低解析效率。
(3)人工标注逻辑形式不仅费时费力,而且训练弱监督信号(即问答对)的SP方法具有挑战性。
5.1.2 Understanding Complex Semantics and Syntax
作为基于 SP 的方法的第一步,问题理解模块将非结构化文本转换为结构化表示,这有利于后续的句法分析。
与简单问句相比,复杂问句具有更复杂的问句类型和成分语义,增加了语言分析的难度。为了更好地理解复杂的自然语言问题,许多现有方法依赖于句法分析,例如依存关系 [Abujabal 等人,2017;Abujabal 等人,2018 [1];Luo等人,2018 [2] ] 和抽象意义表示(AMR)[Kapanipathi 等人,2020 [3] ],以在问题成分和逻辑元素(例如,实体、关系、实体类型和属性)之间提供更好的对齐。
然而