论文阅读笔记----《Explaining Answers with Entailment Trees》

Ray.1998

已于 2022-09-20 16:43:22 修改

阅读量547

点赞数 1

分类专栏：论文笔记

于 2022-07-19 12:36:32 首次发布

原文链接：https://aclanthology.org/2021.emnlp-main.585/

版权

文本蕴涵多步推理解释性生成 ENTAILMENTBANK QA解释

关键词由CSDN通过智能技术生成

论文笔记专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文为论文的部分翻译

Abstract

在开放域文本问答 (QA) 的背景下，我们的目标是通过显示从已知到答案的推理线来解释答案，而不是简单地显示文本证据的片段（“基本原理” ）。如果能做到这一点，理解和调试系统推理的新机会就成为可能。我们的方法是以蕴涵树的形式生成解释，即多前提蕴涵树，从已知的事实，通过中间结论，到感兴趣的假设（即问题+答案）。为了用这种技能训练模型，我们创建了 ENTAILMENTBANK ，这是第一个包含多步蕴涵树的数据集。给定一个假设（问题+答案），我们定义了三个越来越难的解释任务：在给定（a）所有相关句子（b）所有相关和一些不相关的句子或（c）语料库的情况下生成一个有效的蕴涵树。我们表明，强大的语言模型可以部分解决这些任务，特别是当相关句子包含在输入中时（例如，（a）的 35% 的树是完美的），并且有泛化到其他领域的迹象。这项工作意义重大，因为它提供了一种新型数据集（多步蕴涵）和基线，为社区提供了一条新途径，以产生更丰富、更系统的解释。

1 Introduction

解释仍然是 AI 中的一项艰巨挑战。虽然今天的解释系统擅长为答案提供一两句话的支持证据（“基本原理”）（DeY oung 等人，2019），但它们很少从什么解释推理链已知答案，即，在给出证据的情况下，答案是如何得出的——这项工作的目标。没有这个，如果系统的结论是错误的，就很难完全理解系统的响应和/或查明错误的来源。相反，如果一个系统可以通过一系列推理来支持它的答案，那么通过调试错误来交互式地教授机器的新机会就会出现。

我们的方法是以多步蕴涵树的形式生成解释，如图 1 所示，由单个多前提文本蕴涵 (TE) 步骤组成（Dagan 等人，2013；Lai 等人，2017） .尽管有许多可用的单步蕴涵数据集（Bentivogli 等人，2011；Bowman 等人，2015）不存在多步蕴涵数据集，因此本文的一个重要贡献是构建了这样一个数据集，称为 ENTAILMENTBANK。 ENTAILMENTBANK 包含 1,840 个用于伴随 QA 对的多步蕴涵树，使用专家注释器构建，是同类数据集中的第一个。我们还在这个数据集上定义了三个解释任务，即：为给定的 QA 对生成一个有效的蕴涵树，给定（a）所有相关的句子（黄金蕴涵树的叶子），（b）所有相关的和一些干扰语句，或(c) 完整的语料库。

我们这里的重点是生成推导（推理线），以显示证据如何导致答案，而不是决定将哪些部分显示给用户的语用学。这使我们能够将两个（通常是混淆的）解释要求，即（推导的）正确性与效用分开，使我们能够以更客观的度量（正确性）评估推导。这也为未来向用户展示内容的实用性工作奠定了基础（Miller，2019）。

最后，我们为这项任务定义和训练称为 EntailmentWriters 的生成模型，采用早期技术来生成演绎证明（Tafjord 等人，2021 年）。我们发现这些模型部分地解决了数据集，并具有泛化到其他领域的迹象。因此，我们的贡献是：

• 将解释表述为多步骤、多前提的文本蕴涵。

• ENTAILMENTBANK，第一个用于 QA 的多步蕴涵树数据集，支持基于蕴涵的解释。每棵树平均包含 6.6 个节点和 2.7 个蕴涵步骤，包含 1,840 棵树的完整数据集，包括一系列小型和大型多步蕴涵问题。

• 使用最先进的生成模型的基线结果表明可以生成合理的树，特别是当提供必要的原始事实作为模型输入时（导致 35% 的树的错误为零）。我们还提出迹象表明，ENTAILMENTBANK 训练的模型可以推广到其他领域。

这项工作意义重大，因为它为社区提供了一条产生更丰富、更系统的解释的新途径。

2 Related Work

在 QA 的上下文中，有多种解释/理由的概念，包括显示权威的、有答案的句子（Perez 等人，2019）、段落上的注意力图（Seo 等人，2016）、综合连接问题和答案的短语（Rajani 等人，2019 年），或用于定位答案的句法模式（Ye 等人，2020 年；Hancock 等人，2018 年）。这些方法主要设计用于“查找”问题的答案，以解释在语料库中何处/如何找到答案。

对于需要推理的问题，本文的重点，有时将解释视为导致答案的步骤链（通常是句子）。因为众包这样的链很困难，现有的数据集通常会简化任务，例如，收集支持答案的句子而不是它们如何组合，和/或主要集中在单跳（长度为 2）链上。在这里，我们推广到需要多步蕴涵树的任务，表 1 详细说明了这些比较。

表 1：ENTAILMENTBANK 与其他类似数据集的比较。一般来说，ENTAILMENTBANK 包含更大的推理问题，比现有数据集具有更精细的粒度，同时是唯一包含使推理步骤明确的多步蕴涵的数据集。 ‡ WT2 和 R4C 解释是基于重叠词或实体的隐含（未注释）图——此处的值是通过基于词汇重叠构建图来推断的。

我们的树是由 Lai 等人介绍的多前提蕴涵（两个或多个句子蕴含一个假设）构建的。（2017 年），与大多数先前的数据集相比，通常单个句子通过（通常）释义需要 H（Bentivogli 等人，2011；Bar-Haim 等人，2014；Bowman 等人，2015）。我们以两种方式扩展多句蕴涵。首先，我们的树还显示了每个蕴涵的出处，即每个蕴涵涉及哪些句子（即超越分类任务）。其次，我们的数据集是第一个将多个蕴涵链接在一起形成假设导向树的数据集，而不是包含单独的单步蕴涵。

最近在演绎推理方面的工作表明，无论是在正式环境中（Polu 和 Sutskever，2020；Wang 和 Deng，2020）还是使用自然语言表达的规则（Saha 等人，2020），Transformer 都可以生成具有高可靠性的正式证明.受此启发，我们将类似的想法应用于生成蕴涵树，特别是利用 ProofWriter 系统中使用的生成技术（Tafjord 等人，2021）（第 5 节）。

3 The ENTAILMENTBANK Dataset

蕴涵库包含两个部分：1840棵蕴涵树，每棵树显示如何从少量相关句子中蕴涵问答对（QA）（如图1）；和通用语料库C，包含与QA领域相关的领域特定和一般知识的句子和其他句子。我们很快使用这两个部分来定义一个简单的任务（在给定叶子句子的情况下生成树，不带分心词）和一个较难的任务（从语料库生成树）。

蕴涵库使用来自小学科学问题ARC数据集的多项选择题（和正确答案选项）（Clark等人，2018），以及来自WorldTree V2的科学和常识语料库（谢等人，2020；Jansen等人，2018）。WorldTree是为小学水平的科学而创建的，使其成为蕴涵数据库语料库的理想来源。

3.1 Guidelines

训练了三名研究生和本科生注释员为QA对构建蕴涵树，为每个QA对提供少量潜在相关的句子（来自WorldTree）。具体来说，他们接受了编写树的培训：

•其中每个步骤都是一个推论（“一个人通常会推断出的结论”（Dagan等人，2013）），即每个节点中表达的知识合理地来自其直接子节点的内容。

•在细粒度上，每个步骤编码一个推理，例如，进行单个分类推理，结合两个事实，或在语料库中应用单个规则。

•这是明确的，非正式目标是包括幼儿回答问题所需的所有知识。

•这是合成的，可以从更简单的事实中得出更复杂的结论。

•相关的，总结（声明性版本）感兴趣的QA对。

3.2 Tool and Authoring Procedure

构建满足上述要求的详细蕴涵树是一项挑战。为了简化创作，我们设计了一个基于web的图形拖放创作工具2（图2中的屏幕截图），允许解释作者快速构建和审查解释。

对于每个问题，该工具向用户提供了语料库中排名靠前的相关事实，这些事实可能与构建解释相关。为了协助树的构建过程，用户首先填充“解释性工作表”，用少量特定类别（例如，“核心事实”、“基础事实”）标记他们预期将包含在树中的事实。然后，用户从该工作表开始构建蕴涵树-通常从最底部的叶节点开始，从它们中创作中间结论，然后逐步在树的更高层次上工作，直到他们创作出直接回答问题的结论。

如果用户需要提供的事实库中不存在的事实，例如缺少的科学事实或特定于问题的陈述，用户可以快速添加自己的事实，并在树中使用这些事实。一旦完成，各个包含步骤将由不同的作者单独审查质量和建议的编辑。总的来说，这个过程平均每个问题大约需要20分钟。使用此过程编写的两个示例树如图3所示。

3.3 Overall Dataset

由于生成详细的蕴涵树需要大量的时间投入，我们为1840个随机选择的问题（ARC中的7787个问题）编写了树，其中总共包括5881个离散蕴涵步骤。总的来说，大约600（带薪）工作小时用于构建数据集。

训练、开发和测试集的汇总统计数据如表2所示。平均而言，每个蕴涵树包括跨越3.2个蕴涵步骤的7.6个节点，其中每个蕴涵步骤通常涉及3个事实（两片叶子，组合起来得出一个结论）。图4显示了包含树大小的直方图（根据包含步骤的数量测量）。蕴涵库包括各种各样的问题规模，一半（50%）的蕴涵树表示具有一个或两个蕴涵步骤（通常由3-5个节点组成）的短蕴涵问题，而其余50%的树包含3-17个蕴涵步骤。

3.4 Dataset Analysis

为了理解蕴涵库中的蕴涵挑战，我们从训练集中的树中分析了100个随机抽样的蕴涵步骤。我们确定了6种常见的高级推理类别，如表3所示。替代类型是指需要模型来执行分类、子项或其他形式的链接的蕴涵，这些链接将一个输入句子中的一个实体替换为另一个实体。从规则蕴涵中进行推理需要将指定为一个输入句子的特定规则应用于另一个输入句子。我们的分析表明，大约三分之一（33%）的所有蕴涵需要应用特定领域的规则才能完成。进一步的规范或连接蕴涵需要一个模型将两个输入事实的细节合并到单个输出事实中。不太常见的类型需要从对象的属性推断对象的类、继承对象的属性或确定顺序推理的顺序。总的来说，该分析表明，要成功完成蕴涵库中的蕴涵步骤，需要多种形式的推理。

4 Task Definitions

因为从语料库中生成正确的蕴涵树具有挑战性，我们定义了三个难度增加的任务，以简化任务中固有的问题。所有三个的输入都是假设 H，即问题 + 答案 (QA) 的陈述形式，和一些表达（相关和不相关）知识的句子 S。期望的输出是一个有效的蕴涵树 T，其中叶子是从 S 中选择的句子，中间节点 inti 是中间结论（新句子，不是输入的一部分），根节点（结论）是假设 H。T 是如果树中的每个节点 ni 都被其子节点包含，则有效。这 3 个任务因 S 的大小而异，如下所述。

作为使自动评估可行的近似值，我们确保 S 包括金蕴涵树 Tgold 中的所有叶句子 Sgold，并将 Tgold（+有效重新排序）视为可从该输入构造的唯一有效蕴涵树。这允许我们通过将生成的树与 Tgold 进行比较来检查有效性。这种近似对于下面的任务 1 和 2 是合理的，因为它们有限的输入使得从输入构建替代有效树的可能性不大。但是对于任务 3，为了避免从输入语料库构建替代有效树，我们删除在每个问题的基础上，有几个类似于语料库中的 Sgold 的句子。尽管这些步骤并非万无一失，但它们确实允许通过与自动评估的关键要求 Tgold 进行比较来合理地近似树的有效性。

因此，三个任务的输入如下：

任务 3 代表 C 很大的完整任务。对于我们的实验，C 是 WorldTree 语料库加上注释器创建的所有其他科学事实（第 3.2 节）。5 在所有情况下，所需的输出都是有效的蕴涵树 T，近似为黄金蕴涵树 Tgold（+ 有效的重新排序） .

5 Model

受 ProofWriter 系统中的“All-at-once”序列到序列模型的启发（Tafjord 等人，2021 年），我们训练了三个基于 T5 的生成模型（每个任务一个），称为 EntailmentWriters。

5.1 Entailment Tree Encoding

我们将蕴含树编码为可以由生成模型输出的线性结构。为此，输入句子 S 用标识符（sent1、sent2、...）标记，假设 H 用特殊标识符“hypot”标记（图 1）。输出树中的所有节点都是标识符：sent* 代表叶节点，int* 代表内部节点，“hypot”代表结论（根节点）。由于 int* 节点表示新句子（不在输入中），因此我们在首次引入它们的 int* 标识符后立即将这些句子包含在输出中。

在对树进行线性化时，我们从叶事实开始，并努力证明树的根（hypot）。我们用符号“&”来表示“and”，用“->”来表示“entails”。因此，图 1 中的深度 2 蕴涵树将被编码为：

请注意，中间节点 int1 的新句子“Eruptions block sunlight”是要生成的输出的明确部分。模型的任务是在给定输入的情况下输出以这种方式编码的有效蕴涵树。

5.2 Model Details

EntailmentWriter 模型建立在文本到文本预训练的 T5 转换器（Raffel 等人，2020 年）之上，其中的输入如第 4 节中对任务 1（无干扰器）和任务 2（干扰器）的描述。对于任务 3（全语料库），语料库超过了 T5 的标记限制，因此我们使用假设 H 作为查询，从语料库 C 中添加 25 个句子的检索步骤。输出是预测的蕴涵树，如前所述进行编码。

我们使用 T5 库中的默认超参数（包括优化器）对训练集上的模型进行微调。我们使用最大的 T511B 模型，针对 40k 步（批量大小 8）进行微调，选择开发分数最高的检查点。

有关该模型的更多详细信息，请参见附录 C。

6 Experiments

我们训练和测试三个 EntailmentWriter，每个任务一个。模型输入是前面描述的三个任务的模型输入，除了插入检索步骤的任务 3（语料库 C 太大而无法直接输入到 T5）。为此，我们使用 QA 作为查询从 C 中检索 25 个句子（使用 RoBERTa 训练的相关句子排序器，附录 A 中的详细信息），并将它们输入到模型中。所有情况下的输出都是解释（H，声明形式）QA 的蕴涵树。

6.1 Evaluation Metrics

我们将评估蕴涵树视为一个两步问题。首先，预测树 Tpred 中的节点与黄金树 Tgold 中的节点对齐，使用 sent* 标签和中间节点的 Jaccard 相似度。因此，我们不是对黄金树进行精确匹配，而是考虑语义保留变体（附录 C 中描述的树对齐算法）。

对齐后，对齐的树 T 0 pred 使用以下指标对黄金树 Tgold 进行评分。F1/BLEURT 指标对树的元素进行评分（对结果进行微平均），而“AllCorrect”检查所有元素是否正确（ 1=yes, 0=no)，即预测树在考虑的维度上是完美的。我们的四个指标是：

• 叶节点（F1，AllCorrect）：预测树是否使用正确的叶句子？我们通过比较叶子句子 Spred 和 Sgold 来计算 F1 分数。如果所有节点都被正确识别（F1=1.0），则“AllCorrect”得分为 1，否则为 0。

• 步骤（F1，AllCorrect）：树中的各个蕴涵步骤在结构上是否正确？由于每个中间节点代表一个步骤（的结论），因此如果其输入 sent*/int* 节点标签与黄金完全匹配，则该步骤在结构上被认为是正确的（得分 1），否则为 0。然后我们测量 F1，比较两棵树中的所有步骤。如果 F1=1.0，则 AllCorrect=1，否则为 0。

Intermediates (F1, AllCorrect)：合成的中间节点是否正确？为了比较黄金和生成的句子，我们使用 BLEURT7 (Sellam et al., 2020)。如果一对对齐的 intpred、intgold 给出 BLEU RT > 0.28,8 0，我们将生成正确性定义为 1。 F1 是使用对齐的、正确的中间体的数量来计算的。金/预测中间体的数量。如果 F1=1，则 AllCorrect=1，否则为 0。

• 总体证明 (AllCorrect)：仅当所有叶子、步骤和中间体都正确时，生成的证明的总体“AllCorrect”得分为 1，即树完全匹配 Tgold。否则得分为 0。这是一个严格的度量标准：生成树中的任何错误都将导致得分为 0。

6.2 Results

结果如表 4 所示。从中可以得出几个结论：

首先，在任务 1（无干扰）最简单的设置中，仅提供金叶作为输入，Task1 模型表现相当好，超过三分之一的树与金树完美匹配。通过对低分树的随机样本的手动分析，我们发现额外的 ≈20% 也是有效的，但结构不同（因此错误地降低了它们的分数），表明我们的评估指标被低估了。我们将在 6.3.2 节中更详细地讨论这一点。

其次，任务 2（干扰项）通过在输入的黄金句子中添加干扰项来增加难度，直到总共提供 30 个句子作为输入。尽管存在大量干扰因素，但该模型擅长识别相关事实（叶子 F1 = 89%，近一半的树具有完美选择的叶子）。 Task2 中的整体树结构（仅）比 Task1 稍差（F1 的步骤为 41%，而 Task 1 为 51%），尽管任务复杂性显着增加。

最后，对于任务 3，我们重用任务 2 模型（无需额外训练），但添加一个 IR 组件以从为任务 3 提供的整个语料库中检索上下文（因为我们的模型无法摄取整个语料库），使用 RoBERTa基于检索器（附录 A）。请注意，检索是我们基线系统的一项功能，而不是任务规范本身的一项功能。

如表 4 所示，Task 3 结果较低，说明全任务难度较大。尽管大多数树在某些地方是部分正确的（例如，叶子 F1 = 39%），但很少有与黄金树完全匹配。另一个在早期任务中不存在的错误来源是，我们的 IR 组件可能找不到树的所有必需句子 Sgold。事实上，我们发现它平均检索到其中的 66.1%（而且模型输入不包括任何可能需要的特定于问题的场景事实）。因此，任务 3 的较低分数也表明检索组件与树构建器本身一样重要（如果摄取整个语料库是不可行的）；未来的解决方案需要更好地检索或摄取整个语料库。或者，一个模型可以生成而不是检索一些支持句子（如图 4 所示），然后使用这些事后来识别合适的支持语料库句子。

6.3 Error Analysis and Future Work

为了理解为什么有时会生成无效树或有效树得分错误，我们执行了我们现在描述的几个错误分析。

6.3.1 Individual Entailment Steps

我们首先分析模型在个别蕴涵推理步骤中失败的情况。为此，我们从开发集中的不完美蕴涵树 (AllCorrect= 0) 中随机抽取 100 个蕴涵步骤。手动评估这些，我们发现 30% 是正确的蕴涵（13% 几乎是正确的），这表明整体无效树中仍然包含良好的步骤。在步骤无效的情况下，我们会确定几个失败类别并建议未来的方向：

• 重复：包含的结论只是重复输入句子之一（41%），可能是因为在许多训练实例中，中间结论与输入句子的单词重叠度很高。未来的方向是修改损失函数以鼓励模型与输入句子相比添加一些新颖的东西。

• 无效蕴涵：蕴涵结论不是从输入句子中得出的（47%）：在这些情况下，模型使用输入中未说明的知识用于此特定蕴涵步骤，但在输入上下文中的其他位置出现。未来的方向是探索一种交互方法，其中模型一次生成一个蕴涵步骤（可能更容易的蕴涵任务）然后迭代。

• 错误评估和不相关：包含的结论是正确的，但与黄金不同或与证明假设无关（12%）。未来的方向包括改进评估指标，并在损失函数中添加一个目标导向项，以鼓励更接近 H.

6.3.2 完整蕴涵树中的错误

我们在开发集上分析了另外 50 棵不完美的树，并观察到以下错误：

• 不正确/缺失的叶子（≈50%）：例如，对于“为什么蚊子会向二氧化碳移动......？ A：它帮助蚊子寻找食物”，使用“蚊子吃动物血”这一关键输入事实预测的树未命中，因此无法推断“动物是蚊子的食物来源”，因此无法推断向二氧化碳移动的重要性.

• 不完善的评估（≈25%）：我们发现大量被评为无效的树实际上是有效的，这表明我们的自动化指标低估了树的有效性。最常见的原因是即使使用相同的输入句子，树也可以以几种有效的方式构建。例如，具有以下结构的金树：

可以预测为：

对叶子评分 F1=100%，但对步数评分 F1=0%，即使有效。（参见附录 D 中的实例化示例）。我们的指标没有反映这种程度的重组。

为了进一步量化这一点，我们对任务 1 中的 50 棵树进行了随机抽样和评级，发现人类判断估计总体 AllCorrect 为 58%（与表 4 中的金树相比，为 35.6%），这表明自动评估低估了真实的任务绩效在这种情况下约为 20%。未来改进评估指标的工作将有助于减少这种低估。

• 正确的离开，但无效的步骤（≈20%）：例如，对于询问“一个人能在黑暗的房间里看到某人吗？ A: No”，模型选择了正确的叶子句子，但以错误的顺序将它们拼接在一起，导致中间结论无效。在这里，它错误地试图从“一个人在暗室里”和“一个人正在向暗室里看”得出一个蕴涵，产生“外面的人可以看到暗室里的人”，一个无效的步骤和直接与目标答案相矛盾的答案。未来关于更可靠蕴涵的工作，例如，使用迭代方法和/或添加蕴涵验证模块，可能有助于解决这个问题。

• 不连贯的树（≈5%）：我们发现了 2 个示例，其中生成的蕴涵树有中间结论，后来没有用于证明假设。避免这种情况的未来工作将是对输出应用结构约束，强制执行（单个）树结构。

• 正确的步骤，但不正确的中间结论（<5%）：例如，对于带有 H 的问题：“压缩波导致物体沿波的相同方向移动”，模型得到正确的证明结构，但不是得出一个黄金中间结论“纵向波也称为压缩波”，它过早地预测了中间的最终结论 H（然后在最后一步重新预测它）。

最后，我们根据黄金树中的大小（步数）对任务 2 结果进行分组。结果如附录表 A3 所示，表明随着黄金证明中步数的增加，分数显着下降。

7 Generality

ENTAILMENTBANK 可以在多大程度上帮助其他领域？尽管全面调查超出了本文的范围，但我们进行了两次小型域外 (OOD) 调查。首先，我们使用了 eQASC 数据集（Jhamtani 和 Clark，2020）。 eQASC 提供了一个 QA 假设 H、10 个检索到的句子 C，并列出了从 C 中的两个句子到 H 的有效单步蕴涵——即一步（三节点）蕴涵树。运行我们的任务 2 EntailmentWriter 以在给定 C 和 H 的情况下生成树，我们发现（与最佳匹配的金树相比）F1（叶子）为 67%，总体 AllCorrect 得分为 26%——这是转移 OOD 的积极迹象。请注意，这没有对 eQASC 进行微调，并且 eQASC 没有列出所有有效的蕴涵，因此可能会错过良好的输出。

我们还使用 ENTAILMENTBANK 训练了一个无上下文版本的 EntailmentWriter，它只输入一个 QA 对并输出一个树，生成所有的树语句（包括叶子和中间语句）。然后，我们在 Challenge300 上运行此程序，这是一个现有的、独立创作的数据集，包含 300 个涵盖多个领域的测试问题（Tafjord 和 Clark，2021 年）。根据对生成树的随机样本的手动评估，≈35% 是有效的非空树. （约 25% 的剩余部分是有效的，但大部分重复了问题和答案）。图 5 显示了三个很好的例子，再次说明了 ENTAILMENTBANK 的潜力。

最后，作为交互式解释生成的实验，我们重新利用 ENTAILMENTBANK 来训练一个模型，一次一步生成解释。为此，我们将蕴含树“分解”成单独的单层树（中间节点成为要证明的新假设），并重新训练模型以生成类似的单层蕴涵树。然后可以交互地使用该模型，生成一个深入的解释，然后允许用户根据他/她想要了解的更多信息来选择要深入研究的前提，递归调用模型来解释该前提进一步。尽管此类生成模型（生成完整树或单深树）有时会产生错误或荒谬的事实，但可以应用事实验证技术，例如（Thorne 等人，2018 年；Christodoulopoulos 等人，2020 年） )，以验证生成的事实，并在验证失败时生成替代解释。这些都是我们正在探索的令人兴奋的未来方向。

8 Summary and Conclusion

我们的目标是让机器产生更丰富、更系统的解释。为此，我们开发了一种新的解释公式，即多步蕴涵树，并创建了 ENTAILMENTBANK，这是此类树的第一个大型数据集。

我们还展示了自动生成科学问题答案的蕴涵树解释的基线结果，并在 ENTAILMENTBANK 上进行了培训。这些初步结果表明这种生成是可能的，特别是当模型输入中包含必要的原始事实时。我们还提出了在 ENTAILMENTBANK 上训练的模型可以推广到其他领域的迹象。这为未来的系统提供了令人兴奋的机会，可以帮助用户理解和调试系统的答案，并最终参与有意义的对话，探索机器的推理路线。 ENTAILMENTBANK 为这个方向做出了贡献，为开发更丰富、更系统的解释提供了新的资源。 ENTAILMENTBANK 可在 https://allenai.org/data/entailmentbank 获得。