TTT架构超越Transformer,ML模型替代RNN隐藏状态!

目录

01 算法原理

02 骨干架构

03 实验结果


一种崭新的大语言模型(LLM)架构有望取代当前主导 AI 领域的 Transformer,并在性能上超越 Mamba。

论文地址:https://arxiv.org/abs/2407.04620

本周一,关于 Test-Time Training(TTT)的研究论文在人工智能社区引发了广泛讨论。

该研究由斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta 的研究人员共同完成。他们设计了一个新架构 TTT,利用机器学习模型取代了 RNN 的隐藏状态。

通过输入 token 的梯度下降,该模型能够压缩上下文。

  

研究作者之一 Karan Dalal 表示,他相信这将彻底改变语言模型的方法。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

TTT 层直接取代了 Attention,并通过表达性记忆实现了线性复杂性架构,使模型能够在上下文中训练数百万甚至数十亿个 token 的 LLM。

在对比 125M 到 1.3B 参数规模的大模型时,研究发现 TTT-Linear 和 TTT-MLP 均能匹敌或超越最强大的 Transformers 和 Mamba 架构方法。

TTT 层作为一种新的信息压缩和模型记忆机制,可以直接替代 Transformer 中的自注意力层。

这不仅在理论上具有线性复杂度,而且在实际运行时间上也更快

01 算法原理

长上下文的挑战是 RNN 层本质上所固有的:与自注意力机制不同,RNN 层必须将上下文压缩为固定大小的隐藏状态,更新规则需要识别数千甚至数百万个 token 之间的底层结构和关系。

研究团队首先观察到,自监督学习可以将大量训练集压缩为 LLM 等模型的权重,而这些模型通常对其训练数据之间的语义联系有深刻理解。

受此启发,团队设计了一类新的序列建模层,其中隐藏状态是一个模型,更新规则是自监督学习的一个步骤。

由于更新测试序列上的隐藏状态过程相当于在测试时训练模型,因此这种新层被称为测试时训练(Test-Time Training, TTT)层。

团队引入了两个简单的实例:TTT-Linear 和 TTT-MLP,其中隐藏状态分别是线性模型和两层 MLP。TTT 层可以集成到任何网络架构中并进行端到端优化,类似于 RNN 层和自注意力。

为了让 TTT 层更加高效,该研究采取了一些改进措施:

首先,类似于在常规训练期间对小批量序列采取 gradient step 以获得更好的并行性,该研究在 TTT 期间使用小批量 token。

其次,该研究为每个 TTT 小批量内的操作开发了一种双重形式,以更好地利用现代 GPU 和 TPU。双重形式的输出与简单实现等效,但训练速度快了 5 倍以上。

如图 3 所示,TTT-Linear 在 8k 上下文中比 Transformer 更快,与 Mamba 相当。

研究团队认为:所有序列建模层都可以看作将历史上下文存储到隐藏状态中,如图 4 所示。

例如,RNN 层(如 LSTM、RWKV 和 Mamba 层)将上下文压缩为跨时间的固定大小状态。这种压缩会产生两种后果:

一方面,将输入标记 x_t 映射到输出 token z_t 是高效的,因为每个 token 的更新规则和输出规则都需要恒定的时间。
 

另一方面,RNN 层在长上下文中的性能受限于其隐藏状态 s_t 的表现力。

自注意力也可以从上述角度来看待,只不过它的隐藏状态(通常称为 Key-Value 缓存)是一个随 t 线性增长的列表。

它的更新规则是将当前的 KV 元组追加到该列表中,而输出规则则扫描 t 前的所有元组,以形成注意力矩阵。

隐藏状态明确存储了所有历史上下文,无需压缩,这使得自注意力在长上下文方面比 RNN 层更具表现力。

然而,扫描这个线性增长的隐藏状态所需的时间也是线性增长的。为了保持长上下文的高效和表现力,研究者需要一种更好的压缩启发式。

具体来说,需要将成千上万或上百万的 token 压缩到一个隐藏状态中,从而有效捕捉它们的底层结构和关系。这听起来似乎有些高难度,但实际上很多人都对这种启发式非常熟悉。

02 骨干架构

将任何 RNN 层集成到更大架构中的最简洁方法是直接替换 Transformer 中的自注意力,在这里称为骨干。

然而,现有的 RNN(如 Mamba 和 Griffin 等)都使用了与 Transformer 不同的骨干层。最值得注意的是,它们的骨干层在 RNN 层之前包含了时间卷积,这可能有助于收集跨时间的局部信息。

在对 Mamba 主干网进行试验后,研究者发现它也能改善 TTT 层的困惑度,因此将其纳入了建议方法中,详见图 16。

03 实验结果

在实验中,研究人员将 TTT-Linear 和 TTT-MLP 与两种基线模型——Transformer 和 Mamba 进行了比较。

从图 11 中可以得出以下结论:

  • 2k 上下文:TTT-Linear (M)、Mamba 和 Transformer 的性能相当,因为它们的曲线大多重叠。在 FLOP 预算较大的情况下,TTT-MLP (M) 的性能略显不足。尽管 TTT-MLP 在各种模型大小下的困惑度比 TTT-Linear 更优,但额外的 FLOPs 成本抵消了这一优势。
     
  • 8k 上下文:TTT-Linear (M) 和 TTT-MLP (M) 的表现显著优于 Mamba,这与 2k 上下文中的观察结果形成鲜明对比。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 参数规模时也略胜 Mamba。一项显著发现是,随着上下文长度的增加,TTT 层相对于 Mamba 层的优势也在扩大。
     
  • 当上下文长度达到 8k 时,Transformer 在每种模型尺寸下的困惑度表现依旧良好,但由于 FLOPs 成本的增加,其竞争力已明显下降。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:​​​​​WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值