“Transformer就像燃油车，attention-free才是新能源” | 对话RWKV创始人彭博

QbitAl

于 2025-02-26 17:31:39 发布

阅读量931

点赞数 19

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/145892275

版权

量子位智库发自凹非寺
量子位 | 公众号 QbitAI

当DeepSeek引发业界震动时，元始智能创始人彭博正专注于一个更宏大的愿景。

在他看来，某个模型的爆火只是AI进化的一个普通节点，真正的技术革命才刚刚开始。

作为RWKV架构的缔造者，他的目光已经投向未来的芯片底层革命。

目前在产业界，已有海外独角兽企业开始将RWKV应用于商业实践。

这个故事要从Transformer说起，一个正在被不断挑战的AI铁王座……

以下为量子位与元始智能彭博的对话实录整理：

本对谈主体发生于2025年1月R1发布前，星标部分为2025年2月补充。

△彭博的github主页

重写游戏规则

量子位：能不能先给大家介绍一下RWKV是一个什么样的模型？

元始智能彭博：要了解RWKV，得先从Transformer说起。目前主流大模型包括GPT、Llama这些，都是用的Transformer架构。

Transformer包含两个主要部分：随序列长度增加而变慢的attention机制，和速度显存恒定的FFN全连接网络。

Transformer的attention机制就像考试时候开卷查资料，每写一个字都要翻一遍书，KV cache越来越大，效率自然就上不去。这种方式确实适合做翻译这类需要明确对应的任务。

但是RWKV的思路就更像口试了——模型不能随意重读前文——必须用一个固定大小的state来存储和更新信息。口试的方式难度更大，但它迫使模型更去真正理解，而不是简单地查找匹配。

△RWKV-7模型架构图

量子位：Transformer架构能够取得行业主流地位，这里面有多大偶然性和必然性？

元始智能彭博：是必然的。

你看Transformer一开始是设计来做翻译的，这个思路挺不错。它在生成内容的时候不断去前文找需要的信息，这很适合翻译，也包括写文章、写代码这些需要上下文关联的任务。

但问题也很明显。前文越来越长，每生成一个token都要看一遍，速度和内存消耗肯定会越来越大。

你看我们人类，活了几十年，话说多久都不会越来越慢，为什么？因为我们会自动筛选重要信息，不会所有事都记着。

我们会把必须记住的事情记在外部记忆，例如记事本，手机电脑，等等。

△Transformer模型架构图

量子位：有观点认为Transformer的高性能正是源于其注意力机制，你如何看待这一说法？

元始智能彭博：这么说不太准确。Transformer确实在做那些需要明确对应关系的机械性的任务时表现不错。

但是RWKV通过RL一样能做到这些，它也可以学会使用外部记忆，学会在需要的时候重新查看前文。

从前大家认为Transformer做不了System 2，现在RL+CoT就推翻了这种说法。对于RWKV也会发生类似的事情。

量子位：Transformer的发展历程中，从最初的论文到GPT系列的成功，有哪些关键节点？

元始智能彭博：这是个一步步发展的过程。从最开始做机器翻译，到BERT的突破，再到GPT系列，后来还有ViT等等多模态应用，每一步都在扩展边界。

有意思的是，在GPT-3出来的时候，大家的反应不热烈，即使它已经拥有了现在的很多能力，例如从指示生成网页的能力。

GPT-2有人关注了，GPT-3更多人关注了，但主要还是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。