论文笔记--Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

1. 文章简介

  • 标题:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
  • 作者:Raffel C, Shazeer N, Roberts A, et al.
  • 日期:2020
  • 期刊:JMLR

2. 文章概括

  文章提出了一种基于Encoder-Decoder架构的模型T5(Text-to-Text Transfer Transformer)和数据集C4(Colossal Clean Crawled Corpus)。为了验证大模型性能的影响因素,文章进行了一系列的系统研究(相当多了),并在系统研究结论的基础上对T5模型进行提升。最终得到的T5-11在18/24个下游任务中达到了SOTA。
  整体示意如下图
整体架构

3 文章重点技术

3.1 Text-to-Text Transfer Transformer(T5)模型

  由于Transformer突出的表现能力,文章选用Transformer作为模型的基本架构。原始的Transformer采用Encoder-Decoder架构,现在比较成功的模型采用Transformer的一些变体,如GPT[1]系列模型(语言模型)采用Transformer的解码层配合语言模型目标进行训练,BERT[2]模型采用Transformer的编码层配合MLM(Masked Language Modeling)目标进行训练。
  文章选择沿用原始的Encoder-Decoder架构:输入的句子先转化为嵌入向量,然后输入Encoder。这里文章将原始的Layer Normalization(LN)层进行了简化,只保留其放缩部分,即将原始的 W x + b Wx+b Wx+b变为 W x Wx Wx,移除了其中的bias。然后经过Encoder得到的向量再传入Decoder层并尝试还原原始序列。
  原始的Transformer采用sin-cos位置编码,这里文章选择采用如下相对位置编码方法:每个位置嵌入为一个标量,且在不同层之间共享。共计32个位置编码:针对间隔超过128个token的,我们采用相同的位置编码(位置相差1000和2000区别并不多);间隔小于128个token的共计31个位置编码,具体可参加T5的code。

3.2 Colossal Clean Crawled Corpus(C4)数据集

  为了训练模型,文章首先从Common Crawl获取了2019年4月之后的大量HTML文本,并对这些网页进行了如下预处理

  • 只保留以终结符(句号、感叹号、引号、问号)结束的文本行
  • 删除少于5个句子的页面,删除少于3个单词的句子
  • 移除所有包含”Li
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值