预训练一下，Transformer的长序列成绩还能涨不少！

最新推荐文章于 2025-04-27 13:32:19 发布

PaperWeekly

最新推荐文章于 2025-04-27 13:32:19 发布

阅读量265

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/133819960

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

作为 LLM 的主流模型架构，Transformer 在各类任务上的总体表现都出色，大多数情况下，Transformer 的槽点只是它的平方复杂度，而不是效果——除了一个名为 Long Range Arena（下面简称 LRA）的 Benchmark。一直以来，LRA 一直是线性 RNN 类模型的“主场”，与之相比 Transformer 在上面有明显的差距，以至于让人怀疑这是否就是 Transformer 的固有缺陷。

不过，近日论文《Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors》将这“缺失的一环”给补齐了。论文指出，缺乏预训练是 Transformer 在 LRA 上效果较差的主要原因，而所有架构都可以通过预训练获得一定的提升，Transformer 的提升则更为明显。

论文题目：

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

论文链接：

https://arxiv.org/abs/2310.02980

旧背景

Long Range Arena（LRA）是长序列建模的一个 Benchmark，提出自论文《Long Range Arena: A Benchmark for Efficient Transformers》[1]，从论文标题就可以看出，LRA 是为了测试各种 Efficient 版的 Transformer 而构建的，里边包含了多种类型的数据，序列长度从 1k 到 16k 不等，此前不少 Efficient Transformer 的工作也都在 LRA 进行了测试。虽然在代表性方面有些争议，但 LRA 依然不失为一个测试 Efficient Transformer 的长序列能力的经典 Benchmark。

▲ MEGA论文中的LRA结果

可能会让部分读者意外的是，标准的 Transformer（XFM）在这个 Benchmark 上的成绩并不出色，明显落后于一系列线性 RNN 类模型，比如经典的 SSM（S4 [2]、S4D [3]、S5 [4]）或者此前我们介绍过的 LRU，甚至于此前的 SOTA 模型 MEGA [5]，也需要在 GAU 的基础上装备线性 RNN 模块（论文里边称为 EMA）。

总而言之，此前 LRA 上的模型排行情况，强烈地透露着“Attention 可以有，但 RNN 必不可少”的信号。

（注：LRA 的完整成绩排行可以在 https://paperswithcode.com/sota/long-range-modeling-on-lra 查阅。）

新结论

很明显，《Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors》的出现打破了这一印象，它指出用训练集预训练就可以大大缩小两者的差距，并进一步提出“无预训练，不公平”的观点。

▲ “Transformer+预训练”相比于Transformer及各种Effective版的提升

预训练的做法很简单，任务选择 MLM 或者 GPT 都可以，数据集则还是原本的训练集，这样一来除了增加了算力消耗外，并没有引入额外的知识来源，所以比较是公平的。事实上，不管是 Transformer 还是 RNN，经过预训练之后都能获得明显的提升，只不过 Transformer 的提升更加明显：

▲ “Transformer+预训练”与“S4+预训练”

▲ 与SOTA模型的对比

事后来看，论文的结论并不让人意外，甚至有点“显然成立”的感觉，但此前大家似乎都没往这个方向去想（或者是想到了但觉得不是关键？），所以作者们首先意识到并证明预训练在 LRA 的重要性，依然是非常值得称赞的。

预训练的重要性实际上表明了 Inductive Bias 在 LRA 上的重要性，因为 LRA 为了使得序列足够 Long，它的 token 颗粒度是非常细的，比如文本任务是以字母为 token 的，图像任务是以像素为 token 并直接将二维图像展平为一维序列的，很明显这些任务既需要远程依赖，又有明显的局域性，线性 RNN 正好非常贴合它的特性。而 Transformer 相对来说没有那么明显的 Inductive Bias，它还需要额外加位置编码才有位置信息，而即便加了也没有显著的局域性，因此更需要预训练来适应数据特性，或者说，通过预训练来补充Inductive Bias。