论文阅读:GPT-too- A language-model-first approach for AMR-to-text generation Manuel


GPT-too: A language-model-first approach for AMR-to-text generation

  • AMR 是一种 sentence-level 的语义图(semantic graphs)
  • 当前从 AMR 生成 text 的方式都是训练一个seq2seq 或者 graph-sequence 的模型
  • 这篇文章结合了预训练模型cycle-consistency-based 重新评分机制(re-scoring)
  • 数据集 English LDC2017T10 上超过所有方法
  • 还提供了人类评估实验,也验证了有效性

Introduction

  • AMR 是有根有向无环图,用标记的边和结点来表示不同 concept 之间的关系。
  • AMR-to-text 是根据 AMR 提供的基础关系生成一个句子,这个句子表示了 AMR 的基础语义

  • 最早的 AMR-to-text 任务是 16年提出的
  • 2017 年 Vaswani 首先提出了基于 Transformer 的 AMR-to-text 方法
  • 后来一些人对基于 transformer 的 AMR 进行了一系列的改进和提升

  • 预训练的 transformer 表示使用迁移学习来产生更加强大的语言模型,并且超越了之前的工作(Radford et al., 2018; Devlin et al., 2019; Radford et al., 2019)
  • 由于 pre-train 模型的优越性,我们可以将预训练任务应用到 graph-to-text 的任务,例如应用到 AMR-to-text 的任务中。但是图形编码的需求排除了这个选择
  • 向网络中输入一些 graph 的顺序表示例如拓扑排序,会损失 graph 的表示能力
  • 复杂的 graph annotation,如AMR,也包含许多特殊符号和特殊结构,这些符号和结构与自然语言不同,可能无法被预先训练的语言模型所解释。

  • 本文尝试了直接用预训练的 transformer 模型在 AMR graph 的序列表示上进行微调
  • 使用了 GPT-2 语言模型来产生一个 AMR-to-text 系统
  • 结果表示,用 GPT2 预训练模型直接学习 AMR graph 到 text 的映射表现非常惊人
  • 由于一个 AMR graph 可能对应多个句子,这些句子包含完全相同的意思,所以引入了 human evaluation语义相似度 (semantic similarity results)的评估方式
  • 最后,本文也介绍了一种基于循环一致性的简单重评分技术 re-scoring,它可以进一步提高性能

Fine-tuning GPT2 for conditional language generation

  • 为了优化生成模型(GPT-2) 对于条件文本的生成任务,以前的工作通过使用 additional 的 source text 预测 target text 的方式来微调语言模型(就是拿一些下游任务的新文本,将每段文本的前 n 个词作为 source text, n+1 个词作为 target 来微调下游任务)

  • 但在我们进行微调的时候,我们发现对AMR和文本的联合分布进行微调是更好的,也就是对 source 进行重构。
    在这里插入图片描述

  • w 1 , . . . w N w_1, ...w_N w1,...wN 是一个句子的 N 个 token

  • a 1 , . . . . a M a_1,....a_M a1,....aM 是一个 AMR 的序列表示

  • 将他们的联合概率作为优化目标,我们想最大化这个联合的概率分布

  • 在 AMR sequence 的结尾添加一个特殊的词元来表示 AMR sequence 序列结束;这个词元应该从 GPT-2 的词表中未使用的 token 中挑选

  • 同时实验发现,将 input embedding 进行 freeze 可以在微调的时候有正向的结果

  • 在测试时,我们提供AMR作为上下文,就像在传统条件文本生成中一样

在这里插入图片描述

Re-Scoring via Cycle consistency

  • cycle consistency 循环一致性是来评估一个系统的输出质量

  • 它的基本思想是:外部的 ’reverse‘ 系统如何可以借助当前系统的 output 重建当前系统的 input

  • 之前的研究中,往往将 cycle consistency 当做训练目标的一部分

  • 本文提出使用 cycle-consistency 来重新为系统的输出打分(rescoring)

  • 本文采用当前系统借助 AMR 产生的 top k 个句子,使用现成的解析器(off-the-shelf)对这些句子进行解析,然后构建一个 second AMR graph

  • 然后我们借助 AMR 评估方法(Cai and Knight, 2013)来评估这两个 AMR 是否一致,从而间接评估系统生成的句子的效果

Experimental setup

  • LDC2017T10 AMR corpus:36,521 AMR graphs 的训练样本;1368 and 1371 development and test instances
  • 对每个 input text 使用 JAMR 工具(Flanigan et al., 2014).进行 tokenize
  • AMR graph 和对应文本(corresponding text)的 concatenation 被切分到两个词中
  • 特殊词和 sub-word 则使用 GPT-2 的 tokenizer 进行处理
  • 将训练数据中的所有 arc(弧)标签和所有 根节点(root node) 加入到 GPT-2 的词表中
  • 虽然 GPT-2 的词表扩增了,但是将 embedding 层的参数进行冻结
  • 使用了 Huggingface 提供的 GPT-2 small,GPT-2 medium 和 GPT-2 large 分别进行实验
  • 用 V100 训练了几个小时
  • cycle-consistency 的重新评分机制,我们使用了 Naseem et al. (2019) 的 pytorch 实现
  • rescoring 的实验使用了 beam size=15

AMR input representation

  • 对 AMR 的拓扑结构采用了 3 种不同的表示方式:
    • DFS 深度优先搜索,这种 AMR 表示法曾经被 Konstas et al. (2017) 使用过;这种表示方法下:输入的序列就是 DFS 的顺序
    • 第二种方式,想验证看 GPT-2 是否能够学习 graph 的结构信息(learn from graph structure) ;因此我们移除了 DFS 所有的边(edges)只留下了 nodes
    • 第三种方式:使用了原生的 PENMAN 表示法

在这里插入图片描述

Decoding

  • 在解码的时候,我们尝试了:
    • Greedy decoding 贪婪法
    • beam search 定向搜索:beam size 尝试了 5,10,15
  • 由于系统在某些情况下会在文本末尾产生重复的输出,因此我们额外执行一个后处理步骤来删除这些重复的输出

Metrics

  • 使用了三种自动评估的度量方式:

    • BLEU
    • SacreBLEU
    • chrF++
  • English 评估

    • METEOR (CMU (Banerjee and Lavie, 2005))
  • human evaluation

    • 语义相似度 BERTScore (Zhang et al., 2020).
    • 从1371 个测试句子中随机选出 51 个句子,评分区间 0-5
  • 我们的系统在BPE解码后产生 de-tokenized 的大小写输出,而以前的系统产生传统的 tokenized 的小写输出。因此,我们将系统输出小写化并 tokenized,以便与以前的系统进行比较

Result

  • 使用 PENMAN 的原生方式进行 AMR 的表示得到的结果是最好的
  • 同样的,不能破坏 AMR 的 graph 的结构,因为去掉 edges 会让效果变得很差
  • 使用重构训练非常重要(reconstruction term),重构训练的意思就是联合两个概率分布作为学习目标
  • 定向搜索 beam search 相比于贪婪的 decoding 方式提升了 1.91 BLEU,当采用 beam size=10 的时候,效果最好,达到了 32.32 BLEU 和 62.79 chrF++
  • Nuclues 采样会导致性能下降
  • 对 beam search 输出的循环一致性重新排序比最佳输出提高了性能(33.57 BLEU, 64.86 chrf++)

Conclusion

  • 本文提出了一个基于预训练模型(GPT2) 和 AMR-to-text 的生成任务
  • 使用 PENMAN 方法来表示 AMR 是有效的;有各种实验结果和人工评定的证据表明这一点
  • 文中也表明了通过传统的 AMR parser 和 Smatch metric 进行 cycle-consistency 的 rescoring 也可以提高实验结果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值