论文笔记--Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
1. 文章简介
- 标题:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- 作者:Raffel C, Shazeer N, Roberts A, et al.
- 日期:2020
- 期刊:JMLR
2. 文章概括
文章提出了一种基于Encoder-Decoder架构的模型T5(Text-to-Text Transfer Transformer)和数据集C4(Colossal Clean Crawled Corpus)。为了验证大模型性能的影响因素,文章进行了一系列的系统研究(相当多了),并在系统研究结论的基础上对T5模型进行提升。最终得到的T5-11在18/24个下游任务中达到了SOTA。
整体示意如下图
3 文章重点技术
3.1 Text-to-Text Transfer Transformer(T5)模型
由于Transformer突出的表现能力,文章选用Transformer作为模型的基本架构。原始的Transformer采用Encoder-Decoder架构,现在比较成功的模型采用Transformer的一些变体,如GPT[1]系列模型(语言模型)采用Transformer的解码层配合语言模型目标进行训练,BERT[2]模型采用Transformer的编码层配合MLM(Masked Language Modeling)目标进行训练。
文章选择沿用原始的Encoder-Decoder架构:输入的句子先转化为嵌入向量,然后输入Encoder。这里文章将原始的Layer Normalization(LN)层进行了简化,只保留其放缩部分,即将原始的 W x + b Wx+b Wx+b变为 W x Wx Wx,移除了其中的bias。然后经过Encoder得到的向量再传入Decoder层并尝试还原原始序列。
原始的Transformer采用sin-cos位置编码,这里文章选择采用如下相对位置编码方法:每个位置嵌入为一个标量,且在不同层之间共享。共计32个位置编码:针对间隔超过128个token的,我们采用相同的位置编码(位置相差1000和2000区别并不多);间隔小于128个token的共计31个位置编码,具体可参加T5的code。
3.2 Colossal Clean Crawled Corpus(C4)数据集
为了训练模型,文章首先从Common Crawl获取了2019年4月之后的大量HTML文本,并对这些网页进行了如下预处理
- 只保留以终结符(句号、感叹号、引号、问号)结束的文本行
- 删除少于5个句子的页面,删除少于3个单词的句子
- 移除所有包含”Li