谁将替代 Transformer?

2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。

今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。

Transformer 已然代表了当今人工智能技术无可争议的黄金标准,其主导地位至今无人能撼动。

在Transformer 大行其道的同时,出现了一些反对的声音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窥见”;“Transformer 是很好,但并不能实现 AGI,实现一个world model(世界模型)”。

这是因为 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存

简单点说,这意味着当 Transformer 处理的序列长度(例如,段落中的单词数量或图像的大小)增加时,所需的算力就会按该序列的平方增加,从而迅速变得巨大,因此有说法认为“Transformer 效率不高”。这也是当下人工智能热潮引发了全球算力短缺的主要原因。

基于 Transformer 的局限性,许多非 Transformer 架构顺势提出,其中包括中国的 RWKV、Meta 的 Mega、微软亚研的 Retnet、Mamba、DeepMind 团队的 Hawk 和 Griffin 等——它们都是在 Transformer 一统大模型研发江湖之后陆续被提出来的。

他们大多在原来的 RNN 基础上,针对 Transformer 的缺陷和局限性来做改进,试图研究出所谓的「高效 Transformer」(efficient Transformer)结构,一个更像人类思考的架构。

其中 efficient Transformer 是指占用的内存更小、训练和推理过程中的计算成本更小的模型,试图来推翻Transformer 的霸权。

1.当前的非 Transformer 架构研究正走向何方?

现在主流的非 Transformer 研究基本都是针对 attention 机制去优化 full attention 的部分,然后想办法将这一部分变成一个 RNN 模型,以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构——注意力机制(attention)来建模文本。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值