Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。

在这篇博客中,我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力,以及如何在Hugging Face生态系统中使用它。

第一款通用的大规模纯Mamba模型

目前,所有顶级大型语言模型都使用基于注意力机制的Transformer架构。然而,由于计算和内存成本随序列长度增加而增加,注意力机制在处理大序列时存在根本性的局限性。状态空间语言模型(SSLMs)等各种替代架构尝试解决序列扩展的限制,但在性能上仍不及最先进的Transformer架构模型。

通过Falcon Mamba,我们证明了序列扩展的限制确实可以在不损失性能的情况下克服。Falcon Mamba基于原始的Mamba架构,该架构在Mamba: Linear-Time Sequence Modeling with Selective State Spaces中提出,并增加了额外的RMS标准化层以确保大规模稳定训练。这种架构选择确保Falcon Mamba:

  • 能够处理任意长度的序列,而不增加内存存储,特别是适用于单个A10 24GB GPU。
  • 生成新令牌的时间是恒定的,不论上下文的大小(参见此部分)。

模型训练

Falcon Mamba训练所用的数据量约为5500GT,主要包括经过精选的网络数据,并补充了来自公开源的高质量技术和代码数据。我们在大部分训练过程中使用恒定的学习率,随后进行了一个相对较短的学习率衰减阶段。在最后这个阶段,我们还添加了一小部分高质量的策划数据,以进一步提高模型性能。

模型评估

我们使用 lm-evaluation-harness 包在新排行榜版本的所有基准上评估我们的模型,然后使用Hugging Face分数规范化方法规范化评估结果。

model name IFEval BBH MATH LvL5 GPQA MUSR MMLU-PRO Average
Pure SSM models
Falcon Mamba-7B 33.36 19.88 3.63 8.05 10.86 14.47 15.04
TRI-ML/mamba-7b-rw* 22.46 6.71 0.45 1.12 5.51 1.69 6.25
Hybrid SSM-attention models
recurrentgemma-9b 30.76 14.80 4.83 4.70 6.60 17.88 13.20
Zyphra/Zamba-7B-v1* 24.06 21.12 3.32 3.03 7.74 16.02 12.55
Transformer models
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Every DAV inci

小辣鸡一枚,不求打赏啦~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值