论文阅读：Explanations for CommonsenseQA ：New Dataset and Models

最新推荐文章于 2024-06-14 09:43:21 发布

HeroGGC

最新推荐文章于 2024-06-14 09:43:21 发布

阅读量3.2k

点赞数

分类专栏： nlp论文阅读文章标签：人工智能机器学习深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/Hero19980512/article/details/124047594

版权

nlp论文阅读专栏收录该内容

11 篇文章 5 订阅

订阅专栏

论文阅读：Explanations for CommonsenseQA ：New Dataset and Models

来源：ACL 2021

下载地址：https://aclanthology.org/2021.acl-long.238.pdf

本文主要贡献：

对于构成解释的内容，我们提出了一组特征（反驳完整、全面、最小、连贯）。对于任何给定的（问题、正确答案选择、错误答案选择）元组，我们的解释构成了一组积极的属性来证明正确的答案选择和一组否定的属性来反驳不正确的答案。
我们对最近发布的 CommonsenseQA (CQA) 数据集 (Talmor et al., 2019) 中的 11K QA 对的正面和负面属性进行人工注释。我们还为每个 QA 对策划了一个自由流动的解释。
我们提出了一组用于检索任务和解释生成的模型。我们的检索系统称为解释生成器 (XG)，包括一个用于生成常识属性的新型两步微调属性生成模型 (XGP) 和一个自由流动解释生成模型 (XGF)。
我们进行了广泛的实验来证明 XR 和 XG 系统的有效性。

Abstract

CommonsenseQA (CQA) (Talmor et al., 2019) 数据集最近发布，以推进对常识问答 (QA) 任务的研究。

之前的工作主要集中在为该数据集提出 QA 模型。

我们的工作：目标是从该数据集中检索并生成给定（问题、正确答案选择、错误答案选择）元组的解释。我们的解释定义基于某些需求，并将解释转化为一组积极和消极的常识属性（即事实），这些属性不仅可以解释正确的答案选择，还可以驳斥不正确的答案。我们对从 CQA 数据集中提取的 11K QA 对的正面和负面属性以及自由流解释的首创数据集（称为 ECQA）进行人工注释。我们提出了一种基于潜在表示的属性检索模型以及基于 GPT-2 的属性生成模型，该模型具有新颖的两步微调程序。我们还提出了一个自由流动的解释生成模型。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q0h4vIdo-1649411688912)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3e7edb50-b2db-4a40-a2d5-1e3ea5da007c/Untitled.png)]

表 1：来自 CQA 数据集的示例以及我们的人工注释解释，包含支持正确答案选择的正面属性（绿色）、反驳错误选择的负面属性（红色）和自由流动的自然语言解释（蓝色的）。上面显示的 CoS 解释来自先前的工作（Rajani 等人，2019 年），其信息量不如我们的。

Introduction

QA 中的许多先前工作都集中在构建仅用于预测正确答案的模型上。在本文中，我们解决了为问题的答案生成解释的问题。虽然现有工作着眼于解释模型预测的答案（Amini 等人，2019 年），但我们承担了以模型不同的方式解释给定目标（正确）答案的任务（Jansen 等人，2018 年）。

解释常识性 QA 的已知目标答案是一个重要的研究问题，远未得到解决（Rajani 等人，2019 年）。解决这个问题的两个主要障碍包括（i）缺乏任何构成解释的必要条件（Horacek，2017）和（ii）缺乏包含高质量人工注释解释的 QA 数据集。

在这项工作中，我们解决了为 CommonsenseQA 任务自动生成解释的整个堆栈。这包括为解释设置一个需求数据，根据需求数据管理数据集，提出baseline模型和实验。

Related Work

就 QA 中的解释而言，我们可以（i）解释模型的预测答案，或者（ii）解释给定的目标答案而不用考虑模型。对于某些 QA 任务（例如 KBQA、MathQA、VQA），前一种解释任务更有意义。对于其他 QA 任务（例如 Common-sense QA、ScienceQA），后一种形式的解释可能更有意义。在这两种情况下，关键挑战之一是为解释的定义奠定基础。

在这里插入图片描述

表 2：不同多选 QA 解释数据集的各种属性的比较。第 4 列、第 5 列和第 6 列分别指数据集 (i) 是否为错误选择提供反驳，(ii) 是否带有事实知识库，(iii) 分别提供自由流动的自然语言解释。

Explanations for commonsenseQA

解释常识性 QA 背后的广泛思想是捕捉如果向他们提供一对 QA 对，人类将如何证明是合理的。然而，由于主观性（Horacek，2017），为这种人为理由的精确定义奠定基础仍然很困难。此外，根据 QA 任务中涉及的推理类型，解释的形式和形式可能会有所不同。尽管很难对来自 CQA 数据集的 QA 对的解释给出一个单一的定义，但我们相信仍然可以通过提出要求或格式良好的解释的所需特征来解决这个问题：

Comprehensive

应提供解释答案所必需的任何信息或推理。这需要写出问题中不存在但对解释至关重要的常识性事实。

Refutation Complete

虽然它应该解释为什么答案选择是正确的，但它也应该解释为什么其余的选择不正确或不最适合作为答案。

Minimal

它不应包含任何不相关或多余的信息，尤其是问题中已经存在的信息。

Coherent

所有的事实和陈述都应该以连贯和自由流畅的形式写成，以获得有意义和自然的解释。

Formatting of the Explanation

下一个问题是如何将上述需求翻译成正确格式的解释，以用于机器生成。一种天真的方法是将其视为标记或单词的序列，但尚不清楚如何定义度量标准来确定此类序列是否满足需求。因此，我们可选择的建议两种不同的解释格式。

1、Property Set Format：给定一个 CQA 元组 (q，a，I)，其中 q 是问题，a 是正确答案选择，I 是错误选择列表，这种格式建议编译一组常识原子事实（又名属性）集合 S ，使得 S 中的每个属性都需要证明正确的答案或反驳错误的答案。此外，这种格式还要求集合 S 是最小的，因为从 S 中删除任何属性可能无法证明正确的答案选择或反驳一个或多个不正确的答案选择。此外，最好确保 S 中的每个属性声明都是原子的，因为它仅限于单个事实并且不能进一步分解为两个独立的事实。从概念上讲，我们进一步将该集合 S 划分为 S+ 和 S-，并将各自的属性分别称为正和负。正的属性证明正确的答案选择是正确的，而负的属性则驳斥了错误的答案选择。

2、Free Flow（FF）Format：这种格式本质上将问题、答案选择和知识事实陈述从集合 S+ 和 S- 转换为格式良好、连贯、自由流畅的段落。

ECQA Dataset

Dataset Analysis

CQA 的训练和验证集中共有 10962 个问题，我们得到了所有这些问题的注释。表 3 的前 3 行给出了每个问题的属性的平均计数和字长。我们还给出了 ECQA 自由流（FF）和 CoS-E 自由流解释的平均字长进行比较。

为了衡量 ECQA 自由流注释提供了多少信息，我们计算了不同单词（基于词性标注的名词、动词、形容词和副词）的数量，并在表 4 中报告了它们的平均数量。前三行比较 CQA、CoS-E 和 ECQA 中的信息内容，而第四行和第五行告诉 CQA 的两个解释数据集的单个注释中存在哪些额外内容。这给了我们一个粗略的想法，即注释引入了解释所需的新实体和关系。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NP79M0n6-1649411688913)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/42a4a2db-7f43-401d-aac3-8fda6c402dd0/Untitled.png)]

Human Validation Experiments

表 5 列出了正和负属性的平均值 (µ)、标准偏差 (σ)、标准误差 (e) 和平均皮尔逊相关系数 (ρ)。

在这里插入图片描述

Table 5: Absolute Dataset Quality Experiment: Positive and Negative properties as rated by human judges

在这里插入图片描述

表 6：相对数据集质量实验的人工判断：ECQA 和 CoS-E。数字是由 3 位评委平均得出的。 RC：驳斥完成和 M/NR：最小/非冗余

Explanation Retrieval

本节描述了我们提出的解释检索器 (XR) 系统，用于从给定属性语料库中为给定问题检索 S+ 和 S- 属性集。 XR 由两个模块组成 - (i) 属性排序器和 (ii) 属性选择器。

Property Ranker

属性 ranker 的输入是一个元组 (q，a，c)，其中 q 是一个问题（自然语言），a 是问题 q 的答案选择之一（自然语言），如果答案选项 a 不正确，c 是记号 ‘not’，否则为空字符串。属性排名器根据给定的元组 (q，a，c) 对给定语料库中的属性进行排名。

property ranker 的架构包括两个参数共享子模块，即 QA Encoder (E1) 和 Property Encoder (E2)。模块 E1 将一个元组 (q，a，c) 作为输入，并在 512 维潜在空间 Z 中输出一个向量 Zqac。

模块 E1 的设计包括一个 BERT 层，然后是单个均值池和一个全连接层。我们通过验证集的超参数调整来选择潜在空间的维度。模块 E2 将属性语句 p*（用自然语言）作为输入，并在相同的潜在空间 Z 中返回一个向量 Zp*。E2 的架构与 E1 相同，参数在每个层级共享。

Training

对于训练属性排序器，我们使用 SBERT 库。我们使用预训练的 bert-base-uncased (Devlin et al., 2019) 初始化 BERT。全连接层的权重是随机初始化的。在 ECQA 数据集中，来自相应集合 S+ 或 S- 的多个属性可以形成给定 (q，a，c) 的相关属性（每个称为 p*）。对于正确的答案选择，来自相应 S+ 集合的所有属性都是有效的 p∗。如果选择不正确，我们首先将词干答案选择与集合 S- 中的注释属性匹配，并将所有匹配项作为有效属性 p*，并从数据集中删除所有无法映射到任何属性的元组。因此，对于每个匹配的相关属性 (p*)，查询 (q，a，c) 有多个训练示例。每个训练示例的输入部分包括一对 (q，a，c) 和一个相关的常识属性 p*。每个训练样例的输出部分包括向量表示 Zqac 和 Zp∗。该模型使用损失函数进行训练，这迫使 Zqac 和 Zp∗ 在潜在空间 Z 中更接近。我们使用多重负数排名 (MNR) (Henderson et al., 2017) 作为损失，即负对数 softmax 超过 Zqac 和 Zp∗ 的相似性。

Inference

对于推理，我们首先从给定的属性语料库 S 开始，并使用属性编码器 E2 在潜在空间中对它们进行编码。现在，我们通过 E1 传递任何给定的元组 (q，a，c) 并获得其潜在向量表示 Zqac。最后，我们将集合 S w.r.t 中的属性的排序列表输出到它们与向量 Zqac 的余弦相似度。

Property Selector

属性排序器检索到的候选属性与查询 (q;a;c) 一起传递给该属性选择模块。该属性选择器模块然后从给定的较大尺寸的检索到的属性集中过滤出较小尺寸的相关属性集。我们试验了这个模块的两个变体——（i）Top-k，和（ii）基于对齐的迭代检索器（AIR）（Yadav 等人，2020）。

Top-k 模块从属性排名模块返回的排名列表中选择前 k 个属性。

AIR (Yadav et al., 2020) 是一种最先进的无监督解释检索算法。它通过使用 GloVe 嵌入测量问题、答案和解释语句之间的对齐，从给定集合中迭代地选择多跳解释（Pennington 等人，2014 年）。我们使用 AIR 从属性排名器给出的前 50 个属性中选择相关的一组属性。

Experiments and Results for XR System

Dataset

我们首先将带注释的 ECQA 数据集随机分成 70:10:20 的分区，分别形成训练集、验证集和测试集。对于我们所有的实验，我们使用 ECQA 训练集训练提议的属性排序器，并使用 ECQA 验证集对其进行验证。我们在推理过程中对属性的金和银语料库进行了实验。黄金语料库由 ECQA 数据集中的属性组成（包括训练集、验证集和测试集）。同样，银色语料库是 ECQA 数据集的 train 和 val 集，以及一个额外的大型常识事实语料库，称为 Open Mind Common Sense (OMCS) 语料库 (SINGH, 2002)。金银语料库的大小分别为 63975 和 901202。

Metrics

Hyperparameters

我们通过最大化验证集上的平均余弦相似度来调整属性排序器的超参数。表 7 显示了我们提出的属性排序器的最佳超参数，该超参数是在验证集上使用网格搜索获得的，其中参数是在给定范围内搜索的。

在这里插入图片描述

表 7：属性排序器的最佳超参数。 Z 表示潜在空间。

Results

我们还考虑了流行的信息检索方法 BM25（Robertson 和 Zaragoza，2009）作为属性排名模块的另一种选择。我们使用了 BM25 的公开实现。表 8 显示了 XR 系统在金银语料库上对属性排序器和属性选择器模块的不同选择的性能比较。我们提出的以 top-k 作为属性选择器的属性排序器以显着的优势优于所有其他组合。

在这里插入图片描述

表 8：XR 系统中属性排序器和属性选择器模块的不同选择对金银语料库的解释检索结果。“Ours”代表我们提出的属性排序器。

Explanation Generation

在本节中，我们将描述我们提出的基于 GPT2（Radford 等人，2019）的解释生成系统，称为解释生成器（XG）。请注意，XG 在推理时不使用任何常识属性的语料库来生成解释。XG 有两个变体——（i）XGP 生成常识属性，以及（ii）XGF 生成跨所有答案选择的自由流动解释。在我们所有的实验中，我们使用随机抽样来使用 GPT-2 生成输出标记，并报告 3 次不同运行的平均数。

PropertyGeneration

XGP 的输入是一个元组 (q，a，c)，它生成一组属性来证明/反驳给定问题的给定答案选择。 XGP 的架构与 GPT-2 相同，但我们以自定义方式对其进行微调，如下所述。

Training

我们对 GPT-2 进行了新颖的两步微调，并将该模型称为 XGP。第一步，我们微调 GPT-2 以确保它可以生成类似于常识属性的句子。为此，我们使用常识属性的语料库在语言建模任务上微调 GPT-2：ECQA 训练集和 OMCS 语料库。我们使用 perplexity 来评估 val 集上语言模型的质量，并保存在 5 个 epoch 中达到最低 perplexity 的模型。
我们模型的输入是：属性，其中 property 是属性的单词标记，和是标记属性开始和结束的特殊标记。

在第二步中，我们对其进行微调以了解如何生成一组属性。给定一个查询元组 (q,a,c) 和一系列黄金属性，比如 (p∗1,…,p∗k)，我们将 GPT-2 的输入创建为： question: q a is c the answer bacause p∗1 … p∗k

在此输入模板中，以下字符串集始终保持不变：question:、is 和 the answer because。记号和表示序列的开始和结束。我们使用 ECQA 的训练集，保留注释中属性的顺序，以便在上述模板中生成微调数据，用于第二步微调。为了确定这 2 步微调的新颖性，我们通过在预训练的 GPT-2 上仅执行 2 步微调来创建另一个模型 (XGP-W)，并将其与 XGP 进行比较。

Inference

我们使用 ECQA 的测试集来测试 XGP。模型的输入是： question：q a is c the answer because 。该模型生成令牌，直到生成令牌。我们解析输出并收集连续和令牌之间的一组多个属性。

Experiments

表 9 显示了 XGP 和 XGP-W 使用第 5 节中讨论的基于二分图的度量的比较。请注意，我们还包括了表 8 中银语料库上的最佳检索模型，以表明我们的生成模型的性能明显优于它。

在这里插入图片描述

表 9：XGP、XGP-W 和使用银语料库的最佳 XR 模型的比较。

Free-Flow Explanation Generation（XGF）

我们现在讨论在给定问题、所有答案选择和正确答案选择的情况下生成自由流动自然语言解释的模型。XGF 有两种不同的变体，具有不同的训练策略和推理提示。

XGF-I

我们使用 GPT-2 在给定输入元组 (q，o，ca) 的情况下直接输出自由流解释 f，其中 q 是问题，o 是问题 q 的所有答案选择的序列，ca 是正确答案 .

Training

我们使用标准语言建模目标在 ECQA 训练集上对 GPT-2 进行了 5 个 epoch 的微调。训练期间 GPT-2 的输入是： question： q The options are o。 The best answer is ca because f 。使用困惑度度量对 ECQA 的 val 集进行验证。

Inference

在 ECQA 测试集的推理过程中，提示直到because令牌和生成完成，直到令牌。

XGF-II

在这里，我们以两步的方式生成自由流动的解释。在第一步中，我们使用经过训练的 XGP（第 6.1 节）模型为问题的每个答案选择生成属性。在生成所有属性后，我们将它们与问题、所有选择和正确答案一起提供给我们基于 GPT-2 的系统 XGF-II，以生成自由流动的解释。

Training

预训练的 GPT-2 的微调分两步进行。首先，我们对 ECQA 数据集中的黄金属性进行微调。我们采用在 5 个 epoch 内对 val 集实现最低困惑度的模型。在对黄金属性进行微调之后，我们现在在 XGP 生成的属性上对 XGF-II 进行 5 个 epoch 的微调。

Inference

在推理时，我们首先使用 XGP 为每个答案选择生成属性。使用这些属性，XGF-II 生成自由流动解释。

Experiments

表 10 显示了真实情况和 XGF 生成的解释之间的 STS-BERT 和 SPICE 分数。两种 XGF 变体都给出了相似的结果。

在这里插入图片描述

Conclusion

我们已经提出了在常识 QA 的情况下构成解释的必要条件。在此基础上，我们为 CommonsenseQA 生成了一个人工注释的解释数据集 ECQA。我们还提出了模型来检索和生成证明答案选择所需的常识性事实。我们已经公开发布了我们的众包 ECQA 数据集和代码/模型。

HeroGGC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Explanations for CommonsenseQA ：New Dataset and Models

论文阅读：Explanations for CommonsenseQA ：New Dataset and Models来源：ACL 2021下载地址：https://aclanthology.org/2021.acl-long.238.pdf本文主要贡献：对于构成解释的内容，我们提出了一组特征（反驳完整、全面、最小、连贯）。对于任何给定的（问题、正确答案选择、错误答案选择）元组，我们的解释构成了一组积极的属性来证明正确的答案选择和一组否定的属性来反驳不正确的答案。我们对最近发布的 Common
复制链接

扫一扫