本文是LLM系列文章,针对《Jamba:A Hybrid Transformer-Mamba Language Model》的翻译。
摘要
我们提出了Jamba,这是一种新的基于新型混合Transformer-Mamba专家混合(MoE)架构的基础大型语言模型。具体来说,Jamba交错了Transformer和Mamba层的块,享受了这两个模型族的好处。在其中一些层中添加了MoE,以增加模型容量,同时保持活动参数使用的可控性。这种灵活的体系结构允许特定于资源和目标的配置。在我们实现的特定配置中,我们最终得到了一个强大的模型,可以容纳一个80GB的GPU。Jamba是大规模构建的,与普通的Transformers相比,它提供了高吞吐量和小内存占用,同时在标准语言模型基准测试和长上下文评估方面提供了最先进的性能。值得注意的是,该模型在高达256Ktoken上下文长度的情况下显示了强大的结果。我们研究了各种架构决策,例如如何组合Transformer和Mamba层,以及如何混合专家,并表明其中一些决策在大规模建模中至关重要。我们还描述了Jamba的训练和评估揭示的这些架构的几个有趣的特性,并计划从各种消融运行中释放检查点,以鼓励对这种新架构的进一步探索。我们在许可的情况下公开Jamba实现的权重。
1 引言
2 模型架构
3 获取利益
4 训练框架和数据集
5 评估
6 消融和见解
7 结论
我们介绍了Jamb