【深度学习: 迁移转换器】使用 T5 探索迁移学习:文本到文本的迁移转换器

在过去的几年里,迁移学习在自然语言处理(NLP)领域带来了新一波最先进的结果。迁移学习的有效性来自于使用自监督任务(例如语言建模或填写缺失的单词)在大量可用的未标记文本数据上预先训练模型。之后,可以在较小的标记数据集上对模型进行微调,通常比单独使用标记数据进行训练时性能要好得多。2018 年,GPT、ULMFiT、ELMo 和 BERT 点燃了迁移学习的最新成功,2019 年开发了多种新方法,如 XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN。该领域的进展速度使得很难评估哪些改进最有意义,以及它们结合起来的效果如何。

在“使用统一文本到文本转换器探索迁移学习的局限性”中,我们提出了一项大规模的实证调查,以确定哪种迁移学习技术最有效,并大规模应用这些见解来创建一个我们称之为文本到文本转换器(T5)的新模型。我们还引入了一个新的开源预训练数据集,称为 Colossal Clean Crawled Corpus (C4)。在 C4 上预训练的 T5 模型在许多 NLP 基准测试中取得了最先进的结果,同时具有足够的灵活性,可以针对各种重要的下游任务进行微调。为了扩展和重现我们的结果,我们提供了代码和预训练模型,以及易于使用的 Colab Notebook 来帮助入门。

共享的文本转文本框架

在 T5 中,我们建议将所有 NLP 任务重构为统一的文本到文本格式,其中输入和输出始终是文本字符串,这与只能输出类标签或输入范围的 BERT 样式模型形成鲜明对比。我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(例如,情感分析)。我们甚至可以将 T5 应用于回归任务,方法是训练它来预测数字的字符串表示,而不是数字本身。

在这里插入图片描述

文本到文本框架的示意图。我们考虑的每个任务都使用文本作为模型的输入,该模型经过训练以生成一些目标文本。这允许我们在不同的任务集中使用相同的模型、损失函数和超参数,包括翻译(绿色)、语言可接受性(红色)、句子相似性(黄色)和文档摘要(蓝色)。它也为我们的实证调查中包含的方法提供了一个标准的测试平台。

大型预培训数据集 (C4)

迁移学习的一个重要因素是用于预训练的无标记数据集。要准确衡量扩大预训练量的效果,我们需要一个不仅质量高、种类多,而且规模大的数据集。现有的预训练数据集无法同时满足这三个标准,例如,维基百科中的文本质量很高,但风格统一,而且对于我们的目的来说相对较小,而 Common Crawl 网络刮痕数据集则非常庞大,而且种类繁多,但质量相当低。

为了满足这些要求,我们开发了巨型清洁抓取语料库(Colossal Clean Crawled Corpus,C4),它是普通抓取语料库的清洁版,比维基百科大两个数量级。我们的清理过程包括重复数据删除、丢弃不完整的句子以及删除攻击性或嘈杂的内容。这种过滤在下游任务中取得了更好的结果,而额外的规模使得模型的规模在预训练期间不会出现过拟合的情况。C4 可通过 TensorFlow Datasets 获取。

迁移学习方法的系统研究

通过 T5 文本到文本框架和新的预训练数据集 (C4),我们调查了过去几年中引入的 NLP 转移学习的大量想法和方法。调查的全部细节可在我们的论文中找到,包括以下方面的实验:

  • 模型架构,我们发现编码器-解码器模型通常优于“仅解码器”语言模型;

  • 预训练目标,我们确认填空式去噪目标(模型经过训练以恢复输入中丢失的单词)效果最好,并且最重要的因素是计算成本;

  • 未标记的数据集,我们表明对域内数据进行训练可能是有益的,但对较小数据集进行预训练可能会导致有害的过度拟合;

  • 训练策略,我们发现多任务学习可以与预训练然后微调的方法相媲美,但需要仔细选择模型在每个任务上训练的频率;

  • 和规模,我们比较扩大模型大小、训练时间和集成模型的数量,以确定如何充分利用固定计算能力。

洞察力 + 规模 = 最先进的

为了探索 NLP 迁移学习的当前局限性,我们进行了最后一组实验,结合了系统研究中的所有最佳方法,并使用 Google Cloud TPU 加速器扩展了我们的方法。我们最大的模型拥有 110 亿个参数,并在 GLUE、SuperGLUE、SQuAD 和 CNN/Daily Mail 基准测试中达到了最先进的水平。一个特别令人兴奋的结果是,我们在 SuperGLUE 自然语言理解基准测试中取得了接近人类的分数,该基准测试是专门为机器学习模型困难但对人类简单而设计的。

Extensions 扩展

T5 足够灵活,可以轻松修改以应用于超出我们论文中考虑的许多任务,并且通常会取得巨大成功。下面,我们将 T5 应用于两个新颖的任务:闭卷问答和可变大小的填空文本生成。

闭卷问答

使用文本到文本框架的一种方法是解决阅读理解问题,其中向模型提供一些上下文和问题,并训练模型从上下文中找到问题的答案。例如,可以向模型提供维基百科关于飓风康妮的文章中的文本以及“飓风康妮发生在哪一天?”这一问题。然后,模型将被训练以查找文章中的日期“1955 年 8 月 3 日”。事实上,我们通过这种方法在斯坦福问答数据集 (SQuAD) 上取得了最先进的结果。

在我们的 Colab 演示和后续论文中,我们训练 T5 在更困难的“闭门”环境中回答琐事问题,而无需访问任何外部知识。换句话说,为了回答问题,T5 只能使用存储在其参数中的知识,这些知识是在无监督预训练期间获取的。这可以被认为是开放域问答的一种受限形式。

在这里插入图片描述

在预训练期间,T5 学习从 C4 中的文档填充丢失的文本范围(用 表示)。为了将 T5 应用于闭卷问答,我们对其进行了微调,使其可以在不输入任何附加信息或上下文的情况下回答问题。这迫使 T5 根据预训练期间内化的“知识”回答问题。

T5 非常擅长这项任务。在 TriviaQA、WebQuestions 和 Natural Questions 上,完整的 110 亿参数模型分别在 50.1%、37.4% 和 34.5% 的时间内生成答案的精确文本。为了正确看待这些结果,T5 团队在酒吧问答挑战赛中与模型正面交锋,但失败了!单击下面的动画,亲自尝试一下。

在这里插入图片描述

填空文本生成

像 GPT-2 这样的大型语言模型擅长生成非常逼真的文本,因为它们经过训练可以预测输入提示后接下来出现的单词。这催生了许多创意应用程序,例如 Talk To Transformer 和基于文本的游戏 AI Dungeon。 T5 使用的预训练目标与填空任务更加一致,在填空任务中,模型预测损坏的文本中丢失的单词。这个目标是延续任务的概括,因为“空白”也可以出现在文本的末尾。

为了利用这个目标,我们创建了一个名为“大小填空”的新下游任务,其中要求模型用指定数量的单词替换空白。例如,如果我们给模型输入“我喜欢吃花生酱和 4 三明治”,我们将训练它用大约 4 个单词填充空白。

我们使用 C4 在此任务上对 T5 进行了微调,发现结果输出非常真实。看到模型如何根据丢失文本的请求大小调整其预测是特别有趣的。例如,输入“我喜欢花生酱和_N_三明治”,输出如下:

在这里插入图片描述

  • 26
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jcfszxc

赏我点铜板买喵粮吃吧!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值