Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering

AI新突破:清华团队提出创新解释性问答框架,性能大幅提升

引言:解释性问答的挑战与创新

在人工智能领域,解释性问答(Explainable Question Answering,简称XQA)任务旨在不仅提供问题的答案,还要给出解释,让用户理解为何选择了该答案。这一任务对于检验智能系统的推理能力和可解释性至关重要。然而,现有的XQA方法大多集中于单一知识源的推理,例如结构化知识库或非结构化文本等。面对复杂问题,如何整合来自异构知识源的信息成为了一个挑战。

本文提出了一种创新的两阶段XQA框架——基于层次化问题分解树(Hierarchical Question Decomposition Tree,HQDT)的推理(Reasoning over Hierarchical Question Decomposition Tree,RoHT)。首先,通过构建HQDT来理解复杂问题的语义;然后,从根到叶递归地进行概率推理,整合不同树层级的异构知识,并考虑分解和回答的概率,以寻找最佳解决方案。通过在复杂QA数据集KQA Pro和Musique上的实验,证明了利用问题分解进行知识整合的有效性,以及我们的RoHT框架的优越性。

1. 解释性问答的挑战

传统的XQA方法面临两个主要限制。一是基于神经符号方法的形式表示只能在知识库上执行,但即使是最大的知识库也存在不完整性,限制了模型的召回率。二是基于分解的方法使用自由文本语料库作为知识源,但自然语言的多样性使得XQA变得困难。实际上,对于回答复杂问题,整合来自异构知识源的信息至关重要。

2. 创新的RoHT框架

为了应对这些挑战,我们提出了RoHT框架。通过构建HQDT来分解复杂问题,并在此基础上进行概率推理,从而整合来自知识库和文本的知识。RoHT框架的评估结果表明,它在整合知识库和文本的设置下显著提高了性能,相比现有的最先进方法,在KQA Pro和Musique数据集上分别提高了29.7%和45.8%的EM分数。

论文标题、机构、论文链接和项目地址(如有)

  • 论文标题: Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering
  • 机构:
    • Institute for Interdisciplinary Information Sciences, Tsinghua University, Beijing, China
    • Department of Computer Science and Technology, Tsinghua University, Beijing, China
    • Cloud BU, Huawei Technologies
  • 论文链接: https://arxiv.org/pdf/2305.15056.pdf
  • 项目地址: 未提供

在这篇博客的章节中,我们探讨了解释性问答的挑战,并介绍了RoHT框架的创新之处。通过分解问题并整合异构知识源,RoHT在复杂问题的问答任务中取得了显著的进步,这一成果不仅推动了XQA领域的发展,也为未来的研究提供了新的方向。

理解复杂问题的新方法:层次化问题分解树(HQDT)

1. HQDT的定义与结构

层次化问题分解树(Hierarchical Question Decomposition Tree,简称HQDT)是一种用于理解复杂问题语义的树状结构。在这个树中,根节点代表原始的复杂问题,而每个非根节点则代表其父节点的子问题。叶节点是原子问题,即无法进一步分解的简单问题。HQDT是一个3-ary有序树,其中每个节点可以根据词汇库被分类为自然语言问题、桥接问题或符号操作问题。自然语言问题使用常规单词词汇,桥接问题结合了常规单词和引用标记词汇,而符号操作问题则包含了预定义的符号操作,这些操作支持各种推理能力,如属性比较和集合操作。

2. 如何构建HQDT

构建HQDT的过程涉及两个主要步骤:首先生成复杂问题的原子表示,即HQDT的叶节点;然后基于这些原子表示生成所有非叶节点。每个节点的生成都伴随着一个确定性分数,这个分数基于生成每一步的可能性。具体来说,首先使用基于BART的问题分解器生成原子表示,并输出生成的可能性;然后,对于每个非叶节点,根据其原子表示和参照关系生成问题,并使用基于BART的问题生成器生成问题文本。

RoHT框架:两阶段的解释性问答

1. 构建HQDT的过程

RoHT框架的第一阶段是构建HQDT,以理解复杂问题的层次化组合结构。这个过程涉及到使用概率模型生成HQDT,其中每个问题节点都有一个表示其生成确定性的分数。

2. HQDT上的概率推理

RoHT框架的第二阶段是在HQDT上进行概率推理,这个过程是递归的,从根节点到叶节点。对于每个问题节点,将使用知识库(KB)、文本和子问题的答案来获取一系列带有概率分数的答案。最终,将选择根节点列表中得分最高的答案作为复杂问题的最终答案。这个过程包括三个步骤:首先,调度器确定适合特定问题的知识源;然后,执行器根据调度器的输出从知识库或文本中提取答案,并计算每个答案的概率分数;最后,聚合器将不同知识源的候选答案聚合起来,并输出得分最高的答案。

实验设计:数据集与评估方法

1. KQA Pro和Musique数据集介绍

KQA Pro是一个大规模的复杂问题回答数据集,包含超过12万个多达5跳的自然语言问题,基于Wikidata的子集构建。它的知识库(KB)由16k实体、363谓词、794概念和890k三元组事实组成。每个问题都提供相应的KoPL程序。为了模拟知识库不完整的现实情况,研究者们随机丢弃了50%的三元组,并以Wikipedia作为补充的文本语料库。

Musique是一个基于文本的多跳问题回答数据集,包含25k个2-4跳的问题。这些问题是通过手动组合和改写现有单跳问题数据集构建的,旨在避免通过推理捷径作弊。Musique为每个复杂问题提供了20段文本(包括标注的证据段落和干扰段落)。此外,对于训练集中的每个问题,Musique还提供了一个金标准的原子表示,以及每个原子问题的答案和证据段落。除了给定的段落,研究者们选择Wikidata作为获取额外知识的知识库。

2. 实验设置和评价指标

实验中,RoHT框架在KQA Pro和Musique数据集上进行了实例化。为了构建问题的原子表示,研究者们首先使用基于BART的问题分解器生成叶节点,然后基于这些原子表示生成非叶节点。每个节点的确定性得分是基于生成每一步的可能性计算的。

评价指标方面,实验使用了精确匹配(EM)分数来衡量模型性能。此外,与现有的基于分解的方法相比,RoHT在Musique数据集上提高了11.3%的F1分数。

实验结果与分析

1. 在KQA Pro和Musique数据集上的表现

在KQA Pro数据集上,RoHT框架在知识库和文本结合的设置下,相比现有的SOTA模型,EM分数分别提高了29.7%和45.8%。在Musique数据集上,RoHT框架在仅使用给定段落的情况下,相比SA和EX(SA)模型,EM/F1分数分别提高了13.8/14.3和11.6/11.9。

2. 与现有方法的比较

RoHT框架与多种代表性的复杂问题回答方法进行了比较,包括基于记忆的方法、基于图的方法和XQA方法。在KQA Pro数据集上,RoHT模型在仅使用不完整知识库的情况下,相比KVMemNN、RGCN和BART KoPL模型,EM分数分别提高了21.22、4.17和0.90。在添加了Wikipedia作为补充文本语料库后,RoHTmix模型在EM分数上比RoHTKB模型有显著提升(7.51),这证明了结合知识库和文本知识的有效性。RoHTmix模型也显著优于TransferNet模型,后者是一个端到端训练的混合关系图模型。

在Musique数据集上,RoHT模型在开发集上的表现显著优于所有基线模型。使用文本和知识库时,RoHTmix的性能也显著优于TransferNet(62.3对10.9的F1分数)。通过比较RoHTtext和RoHTmix,我们还可以看到在文本信息中补充知识库信息的一些好处,尽管这种改进比在KQA Pro上补充文本的改进要小,因为知识库的覆盖率低于文本,而且语义解析器并没有特别针对Musique的问题进行微调。

深入分析:调度器和层次分解的影响

1. 调度器的作用

调度器在RoHT框架中扮演着至关重要的角色。它负责确定对于特定问题,应该从哪些知识源(知识库、文本或其子问题)中获取答案。调度器首先通过语义解析器将问题解析成程序,并根据程序的类型和知识库的精确度来决定是否从知识库中获取答案。如果知识库的精确度高于预设阈值,则调度器会选择知识库作为合适的答案来源。对于文本来源,调度器会尝试找到一组证据段落,并利用基于RoBERTa的选择器来判断这些段落是否为问题的证据。如果找到了相关证据段落,调度器同样会将文本作为合适的知识源。对于非叶子节点的问题,调度器会默认其子问题为合适的知识源。通过这种方式,调度器能够有效地为每个问题选择最合适的知识源,从而提高整体的答案质量。

2. 层次分解与非层次分解的比较

层次分解(HQDT)与非层次分解(如直接分解成原子问题)的主要区别在于层次分解能够在不同的树层级上融合来自知识库和文本的知识,并且通过比较答案的概率分数来排除错误答案。这种层次结构使得RoHT能够更灵活地利用不同子模块(例如语义解析器和阅读理解模型)从知识库和文本中检索答案。此外,HQDT中设计的原子操作也使得RoHT能够解决更广泛类型的复杂问题。实验结果表明,RoHT在层次分解方面的性能显著优于非层次分解方法,这证明了层次分解在整合多源知识和提高解释能力方面的优势。

总结与展望

1. RoHT框架的主要贡献

RoHT框架的主要贡献在于首次提出利用问题分解来整合异构知识源,并设计了一个新颖的两阶段XQA框架。通过构建层次问题分解树(HQDT)来理解复杂问题的层次结构,然后在HQDT上进行概率推理,整合来自知识库和文本的答案。广泛的实验和仔细的消融研究证明了RoHT框架的有效性,并在两个基准数据集上显著超越了现有的最先进方法。

2. 未来工作的方向

未来的工作将探索将RoHT框架扩展到更多异构知识源,例如表格数据,以进

限制与伦理声明

RoHT框架的局限性

在探索复杂问题回答(XQA)的领域中,我们提出了一种新颖的两阶段框架,即基于层次化问题分解树(RoHT)的推理。尽管RoHT在多个数据集上显示出了显著的性能提升,但我们必须承认其存在一些局限性。

首先,RoHT框架在整合知识库(KB)和文本信息时,虽然能够处理多种类型的复杂问题,但目前仅限于这两种异构知识源。尽管RoHT以独立的方式从每个知识源检索答案,理论上可以利用更多种类的异构数据源,例如表格数据,但目前尚未对此进行研究。

其次,RoHT框架在处理问题时,需要大量的存储空间和内存来存储和使用如维基百科和Wikidata这样的大型知识库。这可能限制了其在资源受限的环境中的应用。

此外,RoHT框架在问题分解的粒度确定上存在挑战。某些复杂问题可以直接使用单一知识源回答,而进一步分解可能会增加错误的可能性。例如,一些问题可能通过维基百科语料库直接回答,无需进一步分解。

最后,RoHT框架在问题分解和回答的过程中都涉及不确定性。例如,对于同一个问题可能存在多种分解方式,框架需要在这些可能的解决方案中找到最优解。

数据使用的伦理考量

在开展XQA研究时,我们使用了公开发布的数据集、百科全书和知识库。这些数据大多数不涉及敏感信息。然而,我们仍需考虑数据使用的伦理问题。

首先,尽管数据公开且可用,我们必须确保在使用过程中遵守相关的数据许可和使用规定。此外,我们应当确保数据的使用不会侵犯个人隐私,不会对个人或群体造成不利影响。

其次,我们在使用数据时,应当注意数据的质量和代表性。数据集的偏差可能会导致模型的不公平性,从而影响某些群体。因此,我们需要确保数据集的多样性和包容性,以减少偏差和不公平性。

最后,我们在发布研究成果时,应当清晰地说明使用数据的范围和限制,以及可能存在的局限性。这有助于其他研究者和用户理解研究的适用性和潜在的局限性。

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值