谁将替代 Transformer？

最新推荐文章于 2024-09-30 12:06:46 发布

Angelina_Jolie

最新推荐文章于 2024-09-30 12:06:46 发布

阅读量839

点赞数 22

分类专栏：深度学习笔记文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/Angelina_Jolie/article/details/137465025

版权

2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经，此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点，一经问世，逐步取代了过去的 RNN（循环神经网络）与 CNN（卷积神经网络），成为 NLP（自然语言处理）前沿研究的标准范式。

今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude，Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。

Transformer 已然代表了当今人工智能技术无可争议的黄金标准，其主导地位至今无人能撼动。

在Transformer 大行其道的同时，出现了一些反对的声音，如：“Transformer 的效率并不高”；“Transformer 的天花板很容易窥见”；“Transformer 是很好，但并不能实现 AGI，实现一个world model（世界模型）”。

这是因为 Transformer 的强大之处同时也是它的弱点：Transformer 中固有的自注意力机制（attention）带来了挑战，主要是由于其二次复杂度造成的，这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。

简单点说，这意味着当 Transformer 处理的序列长度（例如，段落中的单词数量或图像的大小）增加时，所需的算力就会按该序列的平方增加，从而迅速变得巨大，因此有说法认为“Transformer 效率不高”。这也是当下人工智能热潮引发了全球算力短缺的主要原因。

基于 Transformer 的局限性，许多非 Transformer 架构顺势提出，其中包括中国的 RWKV、Meta 的 Mega、微软亚研的 Retnet、Mamba、DeepMind 团队的 Hawk 和 Griffin 等——它们都是在 Transformer 一统大模型研发江湖之后陆续被提出来的。

他们大多在原来的 RNN 基础上，针对 Transformer 的缺陷和局限性来做改进，试图研究出所谓的「高效 Transformer」（efficient Transformer）结构，一个更像人类思考的架构。

其中 efficient Transformer 是指占用的内存更小、训练和推理过程中的计算成本更小的模型，试图来推翻Transformer 的霸权。