ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models

小米粒_mily

已于 2023-05-11 19:26:09 修改

阅读量146

点赞数

分类专栏：文本生成文章标签：语言模型人工智能机器学习

于 2023-05-11 15:44:39 首次发布

本文链接：https://blog.csdn.net/CCCCcc0504/article/details/130603414

版权

文本生成专栏收录该内容

3 篇文章 1 订阅

订阅专栏

摘要

由于输入数据在领域(例如，金融与体育)或模式(例如，不同的谓词)方面的多样性，数据到文本的生成是具有挑战性的。因此，最近的端到端神经方法需要大量的训练示例来学习消除歧义和描述数据。然而，现实世界的数据到文本问题经常受到各种数据稀缺问题的困扰:人们可能只能访问少量或没有训练示例，并且/或者必须依赖于不同领域或模式中的示例。为了填补这一空白，我们提出了任意样本数据到文本(ASDOT)，这是一种通过有效利用任何给定(或没有)示例灵活适用于各种设置的新方法。ASDOT包括两个步骤:数据消歧和句子融合，这两个步骤都可以用现成的预训练语言模型(LMs)和可选的微调来解决。在数据消歧阶段，我们使用提示GPT-3模型从输入数据中理解可能有歧义的三元组，并将每个三元组转换为歧义减少的短句。句子融合阶段然后使用像T5这样的LM将所有结果句子融合成一个连贯的段落作为最终描述。我们对不同场景下的各种数据集进行了广泛的评估，包括零/少/全样本设置，以及对未见谓词和域外数据的概化。实验结果表明，ASDOT在基线上持续取得了显著的改进，例如，在零样本设置下，DART数据集获得了30.81 BLEU增益。

1、前言

数据到文本生成(Kukich, 1983a;Reiter和Dale, 1997)旨在生成基于结构化数据内容(如表和图)的自然语言文本。该任务具有广泛的应用范围，例如任务驱动型对话(Wen等人;2015)，天气预报(Goldberg et al.， 1994;Sripada等人，2003)，体育新闻报道(Wiseman等人，2017)和传记生成(Lebret等人，2016a;Wang等人，2018)。
由于输入数据在领域(例如，金融与体育)、模式(例如，谓词集、表结构)等方面的巨大多样性，这个问题在实践中具有挑战性。固有的模糊性使得学习理解和描述数据变得特别困难。例如，在元组 <Fearless, time, 2008> 在音乐领域，谓语词time表示专辑的发行时间，而在 <100 metres, time, 9.58> 中，从体育角度来说，它表示世界纪录时间。最近基于端到端神经模型的方法，例如，通过微调预训练语言模型(LMs) (Puduppully等人，2019a;Koncel-Kedziorski等人，2019;Zhao等人，2020)，通常需要大量的训练实例来解决歧义，不适用于许多数据稀缺的场景。
在实践中，数据-文本问题可能有不同数量的训练示例，从一个(小)集合到只有几个示例，甚至根本没有示例，有时可能依赖于当前领域之外的可用示例来促进生成。我们把各种各样的实际场景称为任意样本数据到文本的问题。最近的工作研究了在可用的示例有限的情况下，数据到文本的解决方案，但通常仅限于单一的特定设置。例如，Chen等人(2020b)和Su等人(2021)专注于少样本问题，但在没有可访问的示例时无法应用，而Kasner和Dusek(2022)的零样本神经管道依赖于人工制作的模板，因此无法处理域外数据。
在本文中，我们开发了任意样本数据到文本(ASDOT)，这是一种新的灵活方法，可以有效地利用任何给定的(或没有)示例，并且比传统的方法获得更强的生成质量。ASDOT从人类描述数据的方式中获得灵感，即首先消除歧义并理解数据内容，然后将信息融合并组织成文本段落。因此，给定输入数据(如表格或图表)，ASDOT由两个直观的步骤组成，即数据消歧和句子融合。重要的是，这两个步骤中的每一个都可以通过适当的现成的预训练LMs进行解决，并进行可选的微调，从而在任意样本训练示例的存在下实现ASDOT的独特灵活性。更具体地说，在旨在理解每个数据条目(例如，三元组 <Fearless, time, 2008>)的数据消歧中，我们使用了提示GPT-3模型(Radford et al.， 2019)，该模型编码了丰富的常识和世界知识，将三元组转换为一个简短的句子(Fearless was released in 2008)，大大减少了歧义。随后的句子融合阶段使用另一个LM，如T5 (rafael et al.， 2020)，将所有生成的句子组合成一个连贯的段落作为最终描述。作为子任务的句子融合允许我们结合任何可用的域内/域外训练示例以及现有的大型弱监督语料库(Kasner和Dusek, 2022)来微调LM并提高性能。
我们在广泛的实际任意样本场景中评估了所提出的方法，包括(1)零/少/全样本设置，我们可以访问不同数量的训练样例，(2)未见谓词设置，我们描述在训练样例中从未见过的新谓词的数据，以及(3)域外设置，我们只呈现来自其他领域的样例。大量的实验表明，我们的方法始终比以前专门为每个不同场景设计的各种方法取得显著的收益。

2、相关工作

数据到文本(D2T)生成是自然语言处理中一个长期存在的问题，在实践中有着广泛的应用。对这一任务的早期研究侧重于基于规则和管道的方法(Kukich, 1983年b;Reiter和Dale, 1997)，将任务分解为文本规划、句子规划和语言实现。最近的工作发展了各种神经方法。Lebret et al. (2016b)使用神经编码器-解码器，然后是注意力(Bahdanau等人，2015)、内容选择(Puduppully等人，2019a)、实体建模(Puduppully等人，2019b)和风格模仿(Lin等人，2020)，以进一步提高性能。最近的研究也纳入了预训练的LMs(Kale和Rastogi, 2020b;Ribeiro et al.， 2021;Clive et al.， 2021)。虽然以前的全监督方法取得了显著的成绩，但大多数方法都需要大量的域内训练样例，导致在实践中对常见的低数据场景的适用性有限。
近年来，人们对零/少量数据到文本的生成问题产生了兴趣。Chen等人(2020b)首先制定了少样本设置，并将带有指针生成器的预训练模型作为解决方案。Chen等人(2020a)开发了一种基于知识的预训练LM，用于零次和少次数据到文本的生成。Gong et al.(2020)和Chen et al. (2020b)分别提出用内容匹配和原型记忆来解决少样本任务。也有将模板与预训练LM相结合进行零/少镜头生成的研究。例如，Kale和Rastogi (2020a)训练了一个神经模型来重写几个样本的面向任务的对话模板。Heidari等人(2021)应用模板重写的思想构建了一个实用的少样本数据到文本系统。之前的大多数方法都专注于特定的设置(例如，零或少样本)。相比之下，我们的工作研究了广泛的任意样本场景，使用来自当前或不同领域的不同数量的训练示例。与我们的工作特别相关的是Kasner和Dusek(2022)的方法，该方法通过改写给定模板来执行零数据到文本的生成。然而，该方法依赖于人工编写的数据消歧模板，因此对广泛领域的适用性有限。此外，该方法涉及多个组件(排序、聚合、压缩)来融合句子，这限制了使用任意样本示例进行改进。因此，该方法仅研究零样本设置，而我们的工作对各种各样的任意样本问题进行了全面的研究。

3、任意样本数据到文本生成

我们提出将ASDOT用于任意样本数据到文本的生成。§3.1描述了任意样本问题。然后我们提供了我们的方法的概述(§3.2)，并且给出每个模块的详细信息(§3.3,3.4)。图1说明了我们的方法。
在这里插入图片描述

3.1 任意样本数据到文本生成问题

在数据到文本生成任务中，我们得到结构化数据(例如，表或图)作为输入，这些数据可以表示为一组三元组 $\left\{x_1, x_2, \ldots, x_n\right\}$ 。每个三元组 $\boldsymbol{x}_i=\left\langle s_i, p_i, o_i\right\rangle$ ，例如图1中的 <Apollo 11, operator, NASA>，由主语 $s_i$ 、谓词 $p_i$ 和宾语 $o_i$ 组成，表示主语和宾语之间的关系。任务的目标是生成一个段落，该段落由一系列单词 $\boldsymbol{y}=\left\{y_1, y_2, \ldots, y_m\right\}$ ，能够忠实、流畅地描述输入数据。
由于内容域、数据结构和谓词集等的巨大多样性，构建数据到文本的解决方案通常会受到学习理解/描述目标数据的训练示例不足的困扰。在实践中，大多数情况下，我们会看到不同数量的标记示例，这些示例与目标数据直接或远程相关。例如，我们可能需要描述一个新网站上财务报告中的表格，而我们无法访问任何标记的示例(即zero-shot)，或者只能访问几个描述示例(即few-shot)。此外，可用的示例甚至可能不在金融领域(域外)，或者使用不同的表结构(不同的模式)和不同的表头(不同的谓词)。我们将各种实际场景中的数据-文本训练称为任意样本问题。制定一种广泛适用于不同环境的通用方法是非常可取的。

3.2 方法概览

直观地说，数据到文本的生成过程包括两个核心步骤，即 (1)消除歧义并理解数据三元组，以及 (2)生成文本描述。以前的神经网络方法通常以端到端方式对任务建模，并且需要大量的训练示例来学习数据到文本的映射。相比之下，我们利用任务结构，通过制定两个阶段，并使用现成的适当资源(例如，预训练的LMs)来解决每个阶段。图1提供了该方法的概述。具体来说，由于给定紧凑的谓词，每个数据三元组本质上是不明确的，因此需要丰富的常识和世界知识来正确理解内容。例如，在 <Apollo 11, operator, NASA>，一个模型将需要知识来确定是NASA在操作阿波罗11号，而不是相反。因此，在数据消歧阶段，在我们的案例中，我们利用了功能强大的语言模型-GPT-3，它在参数中包含大量隐式知识，将每个三元组转换为歧义减少的短句(例如，阿波罗是由美国宇航局操作的)。一旦我们收集了一组短句，在句子融合阶段，我们使用另一个预训练的LM进行可选的微调，将这些句子组成一个格式良好的段落。该阶段提供了灵活性，可以使用任何可用的训练示例来提高性能。

3.3 数据消歧

在这个阶段，目标是生成一个简短的句子来精确地描述每个数据组。如上所述，三元组可以是高度抽象和模糊的将复杂的关系信息压缩成紧凑的格式 $\mathbf{x}=\langle s, p, o\rangle$ ，其中谓语 $p$ 通常是一个简明的单词或短语(例如，谓语time在三元组 **<Fearless, time, 2008>**中）。为了减少歧义，我们希望通过将其扩充成一个完整的句子来“恢复”这三元组中缺失的信息(例如，Fearless was released in 2008)。将结构化三元组转换为自由格式文本的另一个优点是，文本序列更适合后续句子融合阶段(第3.4节)中使用的LMs。
正如上面的例子所示，将一个三元组扩展到一个句子中自然需要相关的外部知识(例如，Fearless是一张专辑)。专门为任务训练一个模型可能是昂贵的，并且很容易过拟合到训练域。相反，我们采用通用的GPT-3模型。具体来说，如图1(中间模块)所示，我们为GPT-3提供了一些将三元组转换为短句的演示，然后提供目标三元组以引出所需的句子。附录A给出了完整的演示。我们发现，相同的四个演示集足以用于任何领域的目标数据。因此，我们在整个实验中使用由这些演示组成的相同提示。
查询GPT-3 API可能很慢，而且开销很大。给定域中的一组目标数据，我们通过生成模板来减少查询的数量。更具体地说，对于集合中的每个谓词，我们采样一个包含该谓词的三元组，并使用GPT-3为该三元组生成一个句子。然后我们用占位符 ** $< s u bj ec t > 和 < o bj ec t >$ **代替句子中的主语和宾语得到一个模板。例如，图1中谓词出生地的模板是“ $< s u bj ec t >$ ”was born in" $< o bj ec t >$ ";然后，我们使用模板为具有相同谓词的所有三元组生成句子。
值得注意的是，许多现有的数据到文本的方法，从经典的管道解决方案(Reiter和Dale, 1997)到最近的神经方法(Kale和Rastogi, 2020a;Kasner和Dusek, 2022)也包含了类似的模板组件，而他们的模板通常是由人类注释者制作的，这使得这些方法很难应用于不同的新领域。相比之下，我们的ASDOT使用预训练的LMs完全自动化，不需要人工努力也不需要训练示例。

3.4 句子融合

在第二阶段，我们的目标是融合上一步的句子，并产生最终连贯流畅的段落作为输出数据描述。我们自然地将句子融合表述为一个序列到序列的问题，并使用预训练的LMs，特别是T5 (rafael et al.， 2020)作为解决方案的主干。具体来说，我们只是简单地将短句连接起来，加上前缀单词“summary:”，并将它们输入T5模型以获得输出文本。我们选择“summarize:”作为T5的前缀来模拟其预训练配置，因为句子融合任务类似于T5预训练的摘要任务。
句子融合阶段的一个关键优势是允许轻松地对各种可用资源进行微调。一方面，有自动构建的弱监督数据集公开可用，例如从维基百科的编辑历史中挖掘的WikiSplit (Botha等人，2018)和根据规则构建的DiscoFuse (Geva等人，2019)。在我们的零/少样本实验(§4)中，我们使用公共WikiFluent数据集(Kasner and Dusek, 2022)对句子融合模型进行微调，该数据集是通过在维基百科句子上应用句子分裂模型构建的。另一方面，也可以使用任何标记的数据到文本示例(通过首先使用数据消歧义阶段进行转换)，即使示例来自不同的域。这是因为一般的句子融合任务往往是领域不可知的，因为融合句子的操作通常是跨领域相似的，例如，通过插入连接词或将一个句子作为另一个句子的分句。我们在实验中评估了我们的方法的域外泛化能力。

4、实验

4.1 数据集

我们在三种广泛使用的数据到文本基准测试上进行了实验，在此基础上我们研究了任意样本设置。

WebNLG由数据-文本对组成，其中每个数据是从DBpedia中提取的一组三元组，文本由人工编写以描述数据。数据集分为训练集、验证集和测试集，分别有18,102/872/1,862个样本。测试集进一步分为测试可见和测试不可见子集。测试不可见集合中的实例来自未在训练集中看到的维基百科类别，这用于我们的“未见谓词”实验(§4.4)。 WebNLG总共包含354种谓词类型。
E2E是一个人工标注的餐厅领域的数据到文本语料库。该数据集在训练/验证/测试集中分别有42,061/547/629个示例。数据集相对简单，因为它只包含7种类型的谓词和有限的模式。
DART是一个大型的开放域数据到文本语料库，由WikiSQL (Zhong et al.， 2017)、WikiTableQuestions (Pasupat and Liang, 2015)以及WebNLG和E2E数据集构建而成。它在训练/验证/测试集中分别包含62,659/2,768/5,097个示例，并且总共有4,299个不同的谓词。注意，DART中的谓词包括WebNLG和E2E中的谓词。为了评估模型对未知谓词的泛化，我们提取了2,71个测试示例的子集，这些测试示例的谓词在训练/验证集中完全不可见，导致与WebNLG相比，测试集更加困难。

4.2 实验步骤

对于ASDOT，数据消歧阶段(§3.3)使用OpenAI提供的GPT-3 Davinci API，使用贪婪解码，最大生成长度256，停止令牌“\n”。请参考附录A了解我们使用的完整提示符。如第3.3节所述，我们只需要少量的GPT-3通过为每个谓词生成一个模板来查询。因此，我们总共查询了GPT-3 4299次，生成了WebNLG、E2E和DART中的所有谓词，按照GPT-3截至2022年10月21日的定价，其成本仅为23美元。对于句子融合阶段(§3.4)，我们使用不同大小的T5模型作为句子融合LM。在零/少样本设置(§4.3)中，我们使用§3.4中提到的大型弱监督数据WikiFluent (Kasner and Dusek, 2022)对T5进行微调。我们使用Adam优化器(Kingma and Ba, 2015)，初始学习率为3 × 10 × 5，批处理大小为64，用于1个epoch。当有任何标记的数据到文本示例可用时，我们进一步使用这些示例微调句子融合T5。对于生成，我们采用波束搜索解码，波束宽度为5（生成的候选句子取前5个）。我们在附录A中提供了实验设置的更多细节。

评价指标：根据之前的研究，我们报告了BLEU (Papineni等人，2002)和METEOR (Banerjee和Lavie, 2005)的性能，以及最近的PARENTF1指标(dhinggra等人，2019)，该指标测量了生成文本与参考和输入数据之间的对齐情况。我们还在附录c中报告了两个基于嵌入的指标BERTScore (Zhang et al.， 2019)和BLEURT (Sellam et al.， 2020)。此外，我们在稍后详细介绍的几次设置中进行了人工评估。

4.3 零/少/全样本学习

我们在不同数量的训练样本中评估ASDOT，范围从0、10、20、50、100到完整训练集的大小。我们分别在WebNLG和DART数据集上进行了实验。在零/少样本设置中，我们使用T5-large模型进行句子融合LM。在全样本设置下，我们测试了三种不同尺寸的T5模型(small- 60M参数、base- 220M参数和large- 770M参数)进行句子融合。此外，最近的前缀调优方法(Li and Liang, 2021)在数据到文本生成任务上表现出了竞争力。因此，我们还将其与T5-large架构合并，并报告结果。

Baselines在零/少样本设置中，我们与KGPT (Chen等人，2020a)进行了比较，KGPT是一种基于知识的LM，在大规模自动构建的数据到文本语料库上进行了预训练，因为它是少数几种同时适用于零/少样本数据到文本生成的方法之一。此外，我们还与FS-KG (Li et al.， 2021)进行了比较，FS-KG是最近的一种少量数据到文本的方法，增强了知识图和PLM之间的表示一致性。我们还与基于T5-large的端到端模型进行了比较，该模型在具有足够训练样例的数据到文本任务上显示出卓越的性能(Ribeiro et al.， 2020)。根据Ribeiro等人(2021)，对于T5基线，我们在前面加上 $< H > 、 < R > 、 < T >$ 分别在主语、谓语和宾语前，并在输入中添加前缀“translate Graph to English:”。我们用训练示例的可用样本对T5模型进行微调。对于WebNLG数据集，我们报告了另一个基线Neural Pipeline(Kasner and Dusek, 2022)，这是一种基于模板的管道方法，也是在WikiFluent数据集上训练的，只适用于零样本设置。然而，该方法不能用于DART数据集，因为它的模板是专门为WebNLG编写的。在全样本中，我们进一步比较了之前广泛的完整的最先进的数据到文本系统，包括WebNLG上的BestPlan (Moryossef等人，2019)，Pipeline-Trans(Castro Ferreira等人，2019)，PlanEnc(Zhao等人，2020)，DataTuner_FC(Harkous等人，2020)，以及DART上的LSTM-with-attention，End-to-End Transformers和BART-base/large (Nan等人，2020)。
自动评价零/少样本的结果如图2所示。我们的方法在两个数据集上都优于基线模型，证明了其强大的零/少样本学习能力。特别是，在训练样本较少的情况下，我们的ASDOT往往比其他方法表现得更好。例如，我们在10-shot上对WebNLG上的BLEU比T5-large高16.06，在10-shot的DART上高10.53。这是因为两阶段的ASDOT旨在通过在预训练的LM中增加丰富的外部知识来增强生成过程，从而在低数据环境中表现出色。Neural Pipeline与我们的竞争，但仅限于WebNLG上的零样本设置。DART包含更多不同类型的谓词，因此比WebNLG更具挑战性。我们的方法倾向于在困难的数据集上获得更强的性能提升。
我们在表1中报告了全样本设置的结果。与零/少样本设置相比，性能增益往往不那么显著，因为所有方法都有大量的训练样例。然而，由于ASDOT对生成过程的正确建模和丰富的外部隐式知识的结合，我们的方法在大量基线的多样性上仍然取得了一致的更强的性能。
人工评价 我们进行了人体评估，以进一步评估我们的ASDOT与WebNLG上50-shot设置下的其他基线的对比。训练结束后，我们选取了50个测试实例，并请大学里的三名精通英语的人士对模型输出进行评分。按照Chen等人(2020b)的方法，每个生成的结果都从三个方面进行评估:与输入表一致(Faithfulness)和与输入表矛盾(conflict矛盾数)的事实数量，以及语言流畅性，采用3-Likert量表(0,1,2)。结果如表2所示。忠实度、矛盾度和语言流畅度的Krippendorff alpha (Krippendorff, 2011)分别为0.49、0.42和0.36，表明注释者内部存在公平的一致性。与自动评估结果一致，我们观察到ASDOT在所有三个方面都大大优于基线，这表明我们的方法产生了更忠实和流畅的描述。
消融学习我们进行消融研究来研究数据消歧和句子融合两个阶段的影响。表3显示了结果。具体来说，对于句子融合阶段，我们研究了弱监督微调对WikiFluent语料库的影响(§3.4)。从表中，我们可以看到，在没有弱监督微调的情况下，性能急剧下降，即零样本设置下降了8.86 BLEU点。
然而，在大多数情况下，没有弱监督的ASDOT仍然优于基线，验证了我们的方法在低数据设置下的强大优势。对于数据消歧阶段，我们研究了GPT-3产生的自动模板的影响。更具体地说，我们用Kasner和Dusek(2022)的人工编写模板取代了GPT-3模板。性能相似或略有下降，这表明在数据消歧阶段自动生成的短句或模板与手动创建的短句或模板相比具有竞争力或略高质量(可能是由于编写数百个模板时的人为错误)。

4.4 不可见谓词集的生成

我们现在评估模型描述训练期间从未见过的新谓词的能力。如§4.1所述，WebNLG为评估提供了这样一个官方的测试未见集，我们在DART上构建了一个类似的(但更困难的)测试集，其中所有的测试谓词都不包括在训练中。我们在WebNLG和DART上训练模型，分别在相应的测试集上进行评估。如§4.3所述，我们将ASDOT与各自的端到端T5模型(小、基、大、前缀调优)进行比较。我们还包括之前在WebNLG测试未见集上报告的基线结果，包括BestPlan (Moryossef等人，2019)，Pipeline-Trans (Castro Ferreira等人，2019)和PlanEnc (Zhao等人，2020)。实验结果如表4和表5所示。可以看到，我们的方法在所有基线方法上实现了一致的改进，显示了我们的方法对未见谓词的鲁棒性，因为在两个阶段中通过预训练的lm引入了丰富的常识和世界知识。ASDOT相对于相应的端到端T5的优越性能再次证明了我们的模块化的优势，它适用于并改进了各种预训练的lm。与零/少样本实验类似，这里我们观察到，在具有更多未见谓词的更难的DART测试未见集合上，我们的方法比在WebNLG上取得了更显著的收益，这进一步显示了我们的方法在推广到未见谓词时的优势。
在这里插入图片描述

4.5 域外样本的学习

最后，我们定量地测量了我们的方法跨域的泛化能力。为了模拟域外设置，我们在WebNLG数据集上训练我们的模型，并分别在DART和E2E的测试集上对模型进行了评估。DART测试集包括来自WebNLG和E2E测试集的实例。我们删除这些实例以避免任何域内测试示例(WebNLG训练示例)和与E2E评估的任何重叠。我们将我们的方法与端到端微调的T5-large模型进行比较。表6中的实验结果表明，我们的方法在两个域外测试集上都优于基线模型，这与之前的实验结论相呼应，即我们采用两阶段设计和集成预训练LMs的方法在任何样本场景下处理数据到文本生成方面具有优越的泛化能力。
在这里插入图片描述

4.6 案例研究

表7显示了我们的ASDOT(基于T5-large)在数据消歧阶段和句子融合阶段之后，分别在域外和未见谓词设置中的两个数据上的输出。不同数据三元组对应的生成词以不同颜色突出显示(如图1所示)。我们还提供了T5-large基线的结果和人工编写的参考。可以看到，ASDOT对域外数据和不可见谓词具有很强的泛化能力。在第一个例子中，ASDOT成功地消除了三元组 <Zolder, fastest Lap, Liverpool F.C.> 的歧义，变成了 “Liverpool F.C. set the fastest lap in the Zolder” ，而T5基线没有做到这一点，只是生成了 “Zolder’s faster lap in Liverpool F.C.” 此外，在第二个示例中，基线直接复制输出中的 “associated Band/associated Musical Artist” ，而ASDOT正确地将其转换为 “is associated with”。

5、总结

我们提出了ASDOT来处理数据到文本生成的各种各样的任意样本问题。ASDOT由两个阶段组成:数据消歧，使用提示GPT-3将输入数据三元组消歧成短句;句子融合，使用最先进的预训练LMs将这些句子融合成所需的段落。在此过程中，ASDOT集成了来自大型LMs的丰富的外部隐式知识，确保了强大的泛化能力和对零/少/全样本、看不见的谓词和域外训练场景的广泛适用性。大量的实验表明，我们的方法在不同的基线上始终如一地取得了显著的改进。

局限性：我们的方法的一个限制是，数据消歧阶段是由GPT-3模型局部完成的，即，GPT-3模型只观察一个三元组，不利用全表信息。在某些困难的情况下，可能需要使用全表上下文来消除歧义。此外，在这项工作中，我们直接使用GPT-3的输出作为最终的消歧结果，这可能是有问题的，因为GPT-3可能并不总是提供正确的模板，特别是在处理高度专业化的领域时。此外，我们目前的方法只能应用于能够访问大型LMs的语言。

小米粒_mily

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models

由于输入数据在领域(例如，金融与体育)或模式(例如，不同的谓词)方面的多样性，数据到文本的生成是具有挑战性的。因此，最近的端到端神经方法需要大量的训练示例来学习消除歧义和描述数据。然而，现实世界的数据到文本问题经常受到各种数据稀缺问题的困扰:人们可能只能访问少量或没有训练示例，并且/或者必须依赖于不同领域或模式中的示例。为了填补这一空白，我们提出了任意样本数据到文本(ASDOT)，这是一种通过有效利用任何给定(或没有)示例灵活适用于各种设置的新方法。
复制链接

扫一扫

专栏目录