TII 使用 Falcon Mamba 7B 发布首个 SSLM

在这里插入图片描述
这款新型 Falcon Mamba 7B 模型是阿布扎比在人工智能研发领域的又一创举。

Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言(SSLM)。经 Hugging Face 独立验证,Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言 (SSLM)。它优于传统的变压器架构模型,如 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。

最新功能

Falcon Mamba 7B 是我们的第一款 SSLM。我们对这种可以处理较大文本块的新模式感到非常兴奋。SSLM 的内存成本低,无需额外内存即可生成任意长序列。

如何使用 Falcon Mamba 7B?
您可以在 Hugging Face 上找到该模型:
https://huggingface.co/tiiuae/falcon-mamba-7b

我们还提供了一个互动游乐场,供大家试用该模型:
https://huggingface.co/spaces/tiiuae/falcon-mamba-playground

猎鹰曼巴 7B 的性能如何?

在这里插入图片描述
在变压器架构型号方面,Falcon Mamba 7B 优于 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。同时,在其他 SSLM 方面,Falcon Mamba 7B 在旧基准测试中击败了所有其他开源型号,并将成为 Hugging Face 新的更严苛基准测试排行榜上的第一个型号。

在这里插入图片描述
我们测试的是单个 24 GB A10 GPU 所能容纳的最大序列长度。批量大小固定为 1,精度为 float32。基于转换器的模型使用经过调整的词汇量大小,以匹配 Falcon Mamba 模型。可以看出,如果逐个标记处理整个上下文,或以适合 GPU 的大小处理标记块(表示为顺序并行),我们可以适应比 SoTA 变换器模型更大的序列,同时理论上可以适应无限长的上下文。

在这里插入图片描述
在这里插入图片描述
我们使用批量大小为 1 和 H100 GPU,在提示长度为 1 和最多生成 130k 标记的情况下测量了生成吞吐量。我们将其与基于滑动窗口注意力的 Mistral 架构进行了比较,因为后者在大规模时内存效率更高。我们观察到,Falcon Mamba 能以恒定的吞吐量生成所有令牌,且不会增加 CUDA 的峰值内存。而对于变压器模型,随着生成令牌数量的增加,峰值内存会增加,生成速度也会减慢。

训练数据

Falcon-Mamba 的训练数据约为 5,500 GT,主要来自 Refined-Web,这是一个经过过滤和重复的大容量纯网络数据集。与其他 Falcon 套件模型类似,Falcon-Mamba 也采用了多阶段训练策略,将上下文长度从 2,048 增加到 8,192。此外,受 “课程学习”(Curriculum Learning)概念的启发,我们在整个训练阶段都精心选择了数据混合物,同时考虑了数据的多样性和复杂性。需要注意的是,在推理时,上下文长度并不重要,因为 Mamba 架构对长距离依赖性没有限制。在最后的训练阶段,我们使用了一小部分高质量的策划数据来进一步提高性能。

总体而言,数据源包括 RefinedWeb-English、高质量技术数据、代码数据和从公共资源中提取的数学数据。在最后的训练阶段,我们特别使用了来自 Fineweb-edu 的样本。

我们使用 Falcon-7B/11B 标记器对数据进行了标记。

经过预训练后,我们在指令数据上对模型进行了进一步微调。

训练程序

Falcon-Mamba-7B 的大部分训练都是在 256 个 H100 80GB GPU 上进行的,使用的是三维并行策略(TP=1、PP=1、DP=256)和 ZeRO。

Benchmark

model nameIFEvalBBHMATH LvL5GPQAMUSRMMLU-PROAverage
Pure SSM models
FalconMamba-7B33.3619.883.638.0510.8614.4715.04
TRI-ML/mamba-7b-rw*22.466.710.451.125.511.696.25
Hybrid SSM-attention models
recurrentgemma-9b30.7614.804.834.706.6017.8813.20
Zyphra/Zamba-7B-v1*24.0621.123.323.037.7416.0212.55
Transformer models
Falcon2-11B32.6121.942.342.807.5315.4413.78
Meta-Llama-3-8B14.5524.503.257.386.2424.5513.41
Meta-Llama-3.1-8B12.7025.294.616.158.9824.9513.78
Mistral-7B-v0.123.8622.022.495.5910.6822.3614.50
Mistral-Nemo-Base-2407 (12B)16.8329.374.985.826.5227.4615.08
gemma-7B26.5921.126.424.9210.9821.6415.28
model nameARCHellaSwagMMLUWinograndeTruthfulQAGSM8KAverage
Pure SSM models
FalconMamba-7B*62.0380.8262.1173.6453.4252.5464.09
TRI-ML/mamba-7b-rw*51.2580.8533.4171.1132.084.7045.52
Hybrid SSM-attention models
recurrentgemma-9b**52.0080.4060.5073.6038.6042.6057.95
Zyphra/Zamba-7B-v1*56.1482.2358.1179.8752.8830.7860.00
Transformer models
Falcon2-11B59.7382.9158.3778.3052.5653.8364.28
Meta-Llama-3-8B60.2482.2366.7078.4542.9345.1962.62
Meta-Llama-3.1-8B58.5382.1366.4374.3544.2947.9262.28
Mistral-7B-v0.159.9883.3164.1678.3742.1537.8360.97
gemma-7B61.0982.2064.5679.0144.7950.8763.75

我们主要从两个排行榜上获取评估结果。对于标有星级的模型,我们在内部对任务进行了评估,而对于标有两颗星的模型,我们则从纸张或模型卡中获取评估结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值