论文笔记--Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

最新推荐文章于 2025-04-25 22:12:50 发布

Isawany

最新推荐文章于 2025-04-25 22:12:50 发布

阅读量396

点赞数 1

分类专栏：论文阅读文章标签：论文阅读 transformer bert gpt T5

本文链接：https://blog.csdn.net/weixin_38124427/article/details/131611900

版权

论文笔记--Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

1. 文章简介
2. 文章概括
3 文章重点技术
4. 系统的分析
5.文章亮点
6. 原文传送门
7. References

1. 文章简介

标题：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者：Raffel C, Shazeer N, Roberts A, et al.
日期：2020
期刊：JMLR

2. 文章概括

文章提出了一种基于Encoder-Decoder架构的模型T5(Text-to-Text Transfer Transformer)和数据集C4(Colossal Clean Crawled Corpus)。为了验证大模型性能的影响因素，文章进行了一系列的系统研究（相当多了），并在系统研究结论的基础上对T5模型进行提升。最终得到的T5-11在18/24个下游任务中达到了SOTA。
整体示意如下图
整体架构

3 文章重点技术

3.1 Text-to-Text Transfer Transformer(T5)模型

由于Transformer突出的表现能力，文章选用Transformer作为模型的基本架构。原始的Transformer采用Encoder-Decoder架构，现在比较成功的模型采用Transformer的一些变体，如GPT[1]系列模型（语言模型）采用Transformer的解码层配合语言模型目标进行训练，BERT[2]模型采用Transformer的编码层配合MLM(Masked Language Modeling)目标进行训练。
文章选择沿用原始的Encoder-Decoder架构：输入的句子先转化为嵌入向量，然后输入Encoder。这里文章将原始的Layer Normalization(LN)层进行了简化，只保留其放缩部分，即将原始的 $W x + b$ 变为 $W x$ ，移除了其中的bias。然后经过Encoder得到的向量再传入Decoder层并尝试还原原始序列。
原始的Transformer采用sin-cos位置编码，这里文章选择采用如下相对位置编码方法：每个位置嵌入为一个标量，且在不同层之间共享。共计32个位置编码：针对间隔超过128个token的，我们采用相同的位置编码（位置相差1000和2000区别并不多）；间隔小于128个token的共计31个位置编码，具体可参加T5的code。