论文阅读：GPT-too- A language-model-first approach for AMR-to-text generation Manuel

最新推荐文章于 2024-05-04 12:30:15 发布

暖仔会飞

最新推荐文章于 2024-05-04 12:30:15 发布

阅读量392

点赞数 1

分类专栏：论文阅读与代码复现文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_42902997/article/details/127718777

版权

24 篇文章 15 订阅

订阅专栏

GPT-too: A language-model-first approach for AMR-to-text generation

Introduction

预训练的 transformer 表示使用迁移学习来产生更加强大的语言模型，并且超越了之前的工作（Radford et al., 2018; Devlin et al., 2019; Radford et al., 2019)
由于 pre-train 模型的优越性，我们可以将预训练任务应用到 graph-to-text 的任务，例如应用到 AMR-to-text 的任务中。但是图形编码的需求排除了这个选择
向网络中输入一些 graph 的顺序表示例如拓扑排序，会损失 graph 的表示能力
复杂的 graph annotation，如AMR，也包含许多特殊符号和特殊结构，这些符号和结构与自然语言不同，可能无法被预先训练的语言模型所解释。

本文尝试了直接用预训练的 transformer 模型在 AMR graph 的序列表示上进行微调
使用了 GPT-2 语言模型来产生一个 AMR-to-text 系统
结果表示，用 GPT2 预训练模型直接学习 AMR graph 到 text 的映射表现非常惊人
由于一个 AMR graph 可能对应多个句子，这些句子包含完全相同的意思，所以引入了 human evaluation 和语义相似度 （semantic similarity results）的评估方式
最后，本文也介绍了一种基于循环一致性的简单重评分技术 re-scoring，它可以进一步提高性能

为了优化生成模型(GPT-2) 对于条件文本的生成任务，以前的工作通过使用 additional 的 source text 预测 target text 的方式来微调语言模型（就是拿一些下游任务的新文本，将每段文本的前 n 个词作为 source text， n+1 个词作为 target 来微调下游任务）
但在我们进行微调的时候，我们发现对AMR和文本的联合分布进行微调是更好的，也就是对 source 进行重构。
$w_1, ...w_N$ 是一个句子的 N 个 token
$a_1,....a_M$ 是一个 AMR 的序列表示
将他们的联合概率作为优化目标，我们想最大化这个联合的概率分布
在 AMR sequence 的结尾添加一个特殊的词元来表示 AMR sequence 序列结束；这个词元应该从 GPT-2 的词表中未使用的 token 中挑选
同时实验发现，将 input embedding 进行 freeze 可以在微调的时候有正向的结果
在测试时，我们提供AMR作为上下文，就像在传统条件文本生成中一样

在这里插入图片描述

cycle consistency 循环一致性是来评估一个系统的输出质量
它的基本思想是：外部的 ’reverse‘ 系统如何可以借助当前系统的 output 重建当前系统的 input
之前的研究中，往往将 cycle consistency 当做训练目标的一部分
本文提出使用 cycle-consistency 来重新为系统的输出打分（rescoring）
本文采用当前系统借助 AMR 产生的 top k 个句子，使用现成的解析器（off-the-shelf）对这些句子进行解析，然后构建一个 second AMR graph
然后我们借助 AMR 评估方法(Cai and Knight, 2013)来评估这两个 AMR 是否一致，从而间接评估系统生成的句子的效果

LDC2017T10 AMR corpus：36,521 AMR graphs 的训练样本；1368 and 1371 development and test instances
对每个 input text 使用 JAMR 工具(Flanigan et al., 2014).进行 tokenize
AMR graph 和对应文本（corresponding text）的 concatenation 被切分到两个词中
特殊词和 sub-word 则使用 GPT-2 的 tokenizer 进行处理
将训练数据中的所有 arc（弧）标签和所有 根节点（root node） 加入到 GPT-2 的词表中
虽然 GPT-2 的词表扩增了，但是将 embedding 层的参数进行冻结
使用了 Huggingface 提供的 GPT-2 small，GPT-2 medium 和 GPT-2 large 分别进行实验
用 V100 训练了几个小时
cycle-consistency 的重新评分机制，我们使用了 Naseem et al. (2019) 的 pytorch 实现
rescoring 的实验使用了 beam size=15

对 AMR 的拓扑结构采用了 3 种不同的表示方式：
- DFS 深度优先搜索，这种 AMR 表示法曾经被 Konstas et al. (2017) 使用过；这种表示方法下：输入的序列就是 DFS 的顺序
- 第二种方式，想验证看 GPT-2 是否能够学习 graph 的结构信息（learn from graph structure) ；因此我们移除了 DFS 所有的边（edges）只留下了 nodes
- 第三种方式：使用了原生的 PENMAN 表示法

在这里插入图片描述

使用了三种自动评估的度量方式：
- BLEU
- SacreBLEU
- chrF++
English 评估
- METEOR （CMU (Banerjee and Lavie, 2005))
human evaluation
- 语义相似度 BERTScore (Zhang et al., 2020).
- 从1371 个测试句子中随机选出 51 个句子，评分区间 0-5
我们的系统在BPE解码后产生 de-tokenized 的大小写输出，而以前的系统产生传统的 tokenized 的小写输出。因此，我们将系统输出小写化并 tokenized，以便与以前的系统进行比较

使用 PENMAN 的原生方式进行 AMR 的表示得到的结果是最好的
同样的，不能破坏 AMR 的 graph 的结构，因为去掉 edges 会让效果变得很差
使用重构训练非常重要（reconstruction term)，重构训练的意思就是联合两个概率分布作为学习目标
定向搜索 beam search 相比于贪婪的 decoding 方式提升了 1.91 BLEU，当采用 beam size=10 的时候，效果最好，达到了 32.32 BLEU 和 62.79 chrF++
Nuclues 采样会导致性能下降
对 beam search 输出的循环一致性重新排序比最佳输出提高了性能(33.57 BLEU, 64.86 chrf++)

本文提出了一个基于预训练模型（GPT2) 和 AMR-to-text 的生成任务
使用 PENMAN 方法来表示 AMR 是有效的；有各种实验结果和人工评定的证据表明这一点
文中也表明了通过传统的 AMR parser 和 Smatch metric 进行 cycle-consistency 的 rescoring 也可以提高实验结果。