Falcon Mamba：首个高效的无注意力机制7B模型

本文链接：https://blog.csdn.net/ahahayaa/article/details/141821767

Falcon Mamba：首个高效的无注意力机制7B模型

Falcon Mamba是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的，所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。

在这篇博客中，我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力，以及如何在Hugging Face生态系统中使用它。

第一款通用的大规模纯Mamba模型

目前，所有顶级大型语言模型都使用基于注意力机制的Transformer架构。然而，由于计算和内存成本随序列长度增加而增加，注意力机制在处理大序列时存在根本性的局限性。状态空间语言模型（SSLMs）等各种替代架构尝试解决序列扩展的限制，但在性能上仍不及最先进的Transformer架构模型。

通过Falcon Mamba，我们证明了序列扩展的限制确实可以在不损失性能的情况下克服。Falcon Mamba基于原始的Mamba架构，该架构在Mamba: Linear-Time Sequence Modeling with Selective State Spaces中提出，并增加了额外的RMS标准化层以确保大规模稳定训练。这种架构选择确保Falcon Mamba：

能够处理任意长度的序列，而不增加内存存储，特别是适用于单个A10 24GB GPU。
生成新令牌的时间是恒定的，不论上下文的大小（参见此部分）。

模型训练

Falcon Mamba训练所用的数据量约为5500GT，主要包括经过精选的网络数据，并补充了来自公开源的高质量技术和代码数据。我们在大部分训练过程中使用恒定的学习率，随后进行了一个相对较短的学习率衰减阶段。在最后这个阶段，我们还添加了一小部分高质量的策划数据，以进一步提高模型性能。

模型评估

我们使用 lm-evaluation-harness 包在新排行榜版本的所有基准上评估我们的模型，然后使用Hugging Face分数规范化方法规范化评估结果。

`model name`	`IFEval`	`BBH`	`MATH LvL5`	`GPQA`	`MUSR`	`MMLU-PRO`	`Average`
Pure SSM models
`Falcon Mamba-7B`	33.36	19.88	3.63	8.05	10.86	14.47	15.04
`TRI-ML/mamba-7b-rw`^*	22.46	6.71	0.45	1.12	5.51	1.69	6.25
Hybrid SSM-attention models
`recurrentgemma-9b`	30.76	14.80	4.83	4.70	6.60	17.88	13.20
`Zyphra/Zamba-7B-v1`^*	24.06	21.12	3.32	3.03	7.74	16.02	12.55
Transformer models