论文阅读:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
来源:ACL 2020
下载地址:https://aclanthology.org/2020.acl-main.703.pdf
Abstract
我们提出了 BART,一种用于预训练序列到序列模型的去噪自动编码器。
BART 通过以下方式进行训练:(1) 使用任意噪声函数破坏文本。(2) 学习模型来重建原始文本。 它使用标准的基于 Transformer 的机器翻译架构,尽管它很简单,但可以看作是对 BERT(由于双向编码器)、GPT(使用从左到右解码器)和其他最近的预训练方案的泛化。我们评估了许多噪声方法,通过随机打乱句子的顺序和使用新颖的填充方案来找到最佳性能,其中文本的跨度被单个掩码标记替换。BART 在针对文本生成进行微调时特别有效,但也适用于理解任务。它与 RoBERTa 在 GLUE 和 SQuAD 上的性能相匹配,并在一系列抽象对话、问答和摘要任务上取得了新的最先进的结果,增益高达 3.5 ROUGE。BART 还为机器翻译提供了比回译系统提高 1.1 BLEU 的功能,并且只对目标语言进行了预训练。 我们还在 BART 框架内复制了其他预训练方案,以了解它们对最终任务性能的影响。
Introduction
自监督方法在广泛的 NLP 任务中取得了显着的成功。最成功的方法是掩蔽语言模型的变体,它们是去噪自动编码器,经过训练可以重建文本,其中单词的随机子集已被掩蔽。最近的工作通过改善特定类型的最终任务(例如跨度预测、生成等)的分布而显示出收益,从而限制了它们的适用性。
在本文中,我们介绍了 BART,它预训练了一个结合双向和自回归 Transformer 的模型。 BART 是一种使用序列到序列模型构建的去噪自动编码器,适用于非常广泛的最终任务。 预训练有两个阶段(1)文本被任意噪声函数破坏,(2)学习序列到序列模型来重建原始文本。 BART 使用标准的基于 Tranformer 的神经机器翻译架构,尽管它很简单,但可以看作是对 BERT(由于双向编码器)、GPT(使用从左到右解码器)和许多其他最近的预训练方案的泛化 (见图 1)。

图 1:BART 与 BERT(Devlin 等人,2019 年)和 GPT(Radford 等人,2018 年)的示意图比较。
这种设置的一个关键优势是噪声灵活性。 可以对原始文本应用任意转换,包括更改其长度。 我们评估了许多噪声方法,通过随机打乱原始句子的顺序和使用新颖的填充方案找到最佳性能,其中任意长度的文本跨度(包括零长度)被替换为单个掩码标记。 这种方法通过强制模型更多地推理整个句子长度并对输入进行更长范围的转换,从而概括了 BERT 中的原始单词掩码和下一句预测目标。BART 在针对文本生成进行微调时特别有效,但也适用于理解任务。
BART 还开辟了微调的新思路。 我们提出了一种新的机器翻译方案,其中 BART 模型堆叠在几个额外的 Transformer 层之上。 这些层经过训练,通过 BART 传播,基本上将外语翻译成带噪音的英语,从而使用 BART 作为预训练的目标端语言模型。
Model
BART 是一种去噪自动编码器,可将损坏的文档映射到其来源的原始文档。它被实现为一个序列到序列模型,在损坏的文本上具有一个双向编码器和一个从左到右的自回归解码器。 对于预训练,我们优化原始文档的负对数似然。
Architecture
BART 使用来自 (Vaswani et al., 2017) 的标准序列到序列 Transformer 架构,除了参照 GPT ,我们将 ReLU 激活函数修改为 GeLUs (Hendrycks & Gimpel, 2016) 并从 N (

最低0.47元/天 解锁文章
451

被折叠的 条评论
为什么被折叠?



