Jamba 1.5 开放式模型系列：最强大、最高效的长语境模型

本文链接：https://blog.csdn.net/weixin_41446370/article/details/141465230

AI21 开放式机型的全新系列，提供无与伦比的速度、效率和质量，以及开放式机型中最长的上下文窗口。

今天，我们首次推出 Jamba 1.5 系列开放式机型： Jamba 1.5 Mini 和 Jamba 1.5 Large。这两款机型基于我们新颖的 SSM 变压器架构，在长环境处理、速度和质量方面均表现出众，在同尺寸的竞争对手中名列前茅，这也是非变压器机型首次成功达到市场领先机型的质量和强度。我们将根据 Jamba 开放模型许可证发布这些模型，以恪守我们的承诺，实现高质量模型的普及，并为进一步的实验敞开大门。

当今的语言模型功能强大，但往往无法为企业带来真正的价值。在 AI21，我们的使命就是通过设计专为企业打造的人工智能系统来改变这一现状。在建立这些模型时，我们牢记大型企业在实施 GenAI 时最关心的关键指标：资源效率、质量、速度和实际解决关键任务的能力。

超长上下文处理： Jamba 1.5 型号拥有市场上最长的 256K 有效上下文窗口，可提高关键企业应用的质量，如冗长的文档摘要和分析，以及代理和 RAG 工作流
速度：长上下文处理速度最高可提高 2.5 倍，在同类产品中所有长度的上下文处理速度都是最快的
质量：Jamba 1.5 Mini 是同类产品中最强的开放式型号，在 Arena Hard 基准测试中获得了 46.1 分，超过了 Mixtral 8x22B 和 Commander 等大型型号： Jamba 1.5 Mini 在 Arena Hard 基准测试中获得 46.1 分，是同类产品中最强的开放式机型，超过了 Mixtral 8x22B 和 Command-R+ 等大型机型。 Jamba 1.5 Large 得分为 65.4，超过了 Llama 3.1 70B 和 405B
多语种：除英语外，这些机型还支持西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语。
开发人员就绪： Jamba 本机支持结构化 JSON 输出、函数调用、消化文档对象和生成引文 - 面向构建者开放：两种模型均可立即在Hugging Face上下载（并即将在领先的框架LangChain和LlamaIndex上下载）
部署到任何地方：除AI21 Studio外，这些模型还可在云合作伙伴Google Cloud Vertex AI、Microsoft Azure和NVIDIA NIM上使用，并即将在Amazon Bedrock、Databricks Marketplace、Snowflake Cortex、Together.AI以及私有内部部署和VPC上部署。

资源节约型混合架构

Jamba 1.5 Large 和 Mini 基于新颖的 SSM-Transformer Jamba 架构构建，该架构将 Transformer 的卓越品质与 Mamba 的开创性效率融为一体。因此，与竞争对手相比，这些模型的内存占用更低，允许客户使用 Jamba 1.5 Mini 在单 GPU 上处理多达 140K 标记的上下文长度。与基于变压器的模型相比，同样的优势还使得对长上下文进行微调变得更容易、更方便。得益于这种效率优化的架构，我们的机型可以在不增加成本的情况下提供一流的质量和速度。与所有同级别的模型一样，Jamba 1.5 Large 无法在由 8 个 GPU 组成的单节点上以全精度（FP32）或半精度（FP16/BF16）加载。我们对目前可用的量化技术感到不满，因此开发了专为 MoE 模型量身定制的新型量化技术 ExpertsInt8。

在使用 ExpertsInt8 时，我们只对作为 MoE（或 MLP）层组成部分的权重进行量化，对于许多 MoE 模型来说，这些权重占模型权重的 85% 以上。在我们的实现中，我们以 INT8（一种 8 位精度格式）量化和保存这些权重，并在运行时直接在 MoE GPU 内核中去量化。这种技术有四个优点：它速度快，量化只需几分钟；它不依赖校准，而校准过程有时并不稳定，通常需要数小时或数天；它仍然可以使用 BF16 来保存大型激活；更重要的是，它可以让 Jamba 1.5 Large 装载在单个 8 GPU 节点上，同时充分利用其 256K 的上下文长度。在我们的实验中，ExpertsInt8 被证明是所有用于 MoE 模型的 vLLM 量化技术中延迟最低的一种，而且不会降低质量。

实际交付的超长上下文 Jamba 1.5 型号提供的 256K 上下文窗口不仅是开放式型号中最长的，也是唯一能在 RULER 基准测试中证明这一点的型号。

在这里插入图片描述
大多数其他型号都声称具有长上下文窗口，但在其上下文窗口的上限却无法保持相同的性能质量，而 Jamba 1.5 系列却能在 256K 上下文窗口的整个跨度内保持其长上下文处理能力。能够有效处理长上下文的模型对于几乎所有企业级 GenAI 应用程序都至关重要。除了彻底、精确地总结和分析冗长的文档外，长上下文模型还能大幅提高 RAG 和代理工作流的质量，并通过消除对连续分块和重复检索的需求来降低其成本。虽然有时有人声称 RAG 可以替代长语境，但一个成功的企业人工智能系统需要两者兼备。在将长上下文和 RAG 搭配使用时，长上下文模型可大规模提高 RAG 检索阶段的质量和成本效益。

市场上最快

对于企业感兴趣的使用案例，如客户支持代理助理和聊天机器人，快速周转至关重要。即使使用请求和批量增加，模型也必须能够跟上业务规模的发展。两种 Jamba 1.5 模型都比类似规模的竞争对手更快，在长上下文中的推理速度最高可提高 2.5 倍，在客户自己的环境中部署时，可在高利用率下为客户带来重大的成本、质量和速度收益。

在这里插入图片描述
在 2xA100 80GB GPU 上进行了 Jamba 1.5 Mini 比较，在 8xA100 80GB GPU 上进行了 Jamba 1.5 Large 比较。测试是在 vLLM 上进行的，batch_size=1，output_tokens=512，input_tokens=(context_length-512)

在 Artificial Analysis 的测试中，Jamba 1.5 Mini 和 Jamba 1.5 Large 显示出出色的速度和吞吐量，如下图所示，其中 Jamba 1.5 Mini 在 10K 上下文中排名最快。

在这里插入图片描述

全面卓越的品质

根据 Arena Hard 基准衡量，Jamba 1.5 Mini 是同尺寸级别中最出色的机型，超越了竞争对手 Claude 3 Haiku、Mixtral 8x22B 和 Command-R+。 Jamba 1.5 Large 同样超越了 Claude 3 Opus、Llama 3.1 70B 和 Llama 3.1 405B 等领先机型，在同尺寸级别中具有极高的性价比。

在这里插入图片描述