Gemma 3 技术报告

Gemma 团队,Google DeepMind

我们引入了 Gemma 3,这是 Gemma 系列轻量级开源模型的多模态扩展版本,规模从 10 亿到 270 亿参数不等。此版本引入了视觉理解能力、更广泛的语言覆盖范围和更长的上下文长度——至少 128K 个标记。我们还通过增加局部与全局注意力层的比例并保持局部注意力的短跨度来改变模型架构,以减少长上下文时 KV 缓存内存的爆炸式增长。经过蒸馏训练的 Gemma 3 模型在预训练和指令微调版本中均优于 Gemma 2。特别是,我们的新型后训练方法显著提升了数学、对话、指令跟随和多语言能力,使 Gemma3-4B-IT 在各种基准测试中具有竞争力,并且 Gemma3-27B-IT 的表现可与 Gemini-1.5-Pro 相媲美。我们将所有模型发布给社区。

  1. 引言

我们介绍了最新版本的 Gemma 开源语言模型(Gemma 团队,2024a),该模型与 Gemini 边界模型系列(Gemini 团队,2023)共同设计。这个新版本的规模与 Gemma 2(Gemma 团队,2024b)相当,并新增了一个 1B 模型。这些模型旨在运行于标准消费级硬件,如手机、笔记本电脑和高端 GPU 上。这一版本为 Gemma 系列带来了多项新能力:多模态、长上下文和多语言支持,同时保留或超越了先前版本的性能。

在多模态方面,大多数 Gemma 3 模型兼容定制版 SigLIP 视觉编码器(Zhai 等人,2023)。语言模型将图像视为由 SigLIP 编码的软标记序列。我们通过将视觉嵌入压缩为固定大小的 256 个向量来降低图像处理的推理成本。编码器在固定分辨率下工作,我们借鉴了 LLaVA(Liu 等人,2024)的方法,使用平移和扫描(P&S)技术实现灵活分辨率。

第二个主要架构改进是上下文大小增加到 128K 标记,而不会降低性能。长上下文的一个挑战是推理过程中 KV 缓存的内存爆炸问题。为了解决这个问题,我们在每个全局层之间交错多个局部层,并将局部层的跨度限制为仅 1024 个标记。因此,只有全局层关注长上下文,每 5 个局部层对应 1 个全局层。

预训练优化配方与 Gemma 2 类似,但在架构设计上有一些修改。我们使用与 Gemini 2.0 相同的分词器,并重新审视我们的数据混合以改进模型的多语言能力,同时引入图像理解。所有 Gemma 3 模型均通过知识蒸馏(Hinton 等人,2015)进行训练。

在后训练阶段,我们专注于提高数学、推理和对话能力,同时整合 Gemma 3 的新能力:长上下文和图像输入。我们采用了一种新颖的后训练方法,在包括数学、编程、对话、指令跟随和多语言在内的各项能力上都取得了提升。由此产生的 Gemma 3 指令微调模型既强大又多功能,大幅超越了其前辈。

在接下来的部分中,我们简要概述了我们的模型,包括架构和预训练及后训练配方。我们还提供了详细的定量和定性基准评估。我们讨论了安全和负责任部署的方法,并概述了 Gemma 3 的更广泛影响、局限性和优势。

1 2: 详见贡献与致谢部分以获取完整作者名单。请将信件发送至 gemma-3-report@google.com。(c)2025 Google DeepMind。保留所有权利。

如果只点了切肉,我需要付多少钱?包含 18% 的小费。

以下是费用和小费计算的明细,基于收据:

  1. 确定切肉的成本:
  • 收据列出“Is Zürcher Geschnetzeltes + Rösti”为 CHF 36.50。这是带一份炸土豆片的切肉菜肴。
  1. 计算 18% 的小费:
  • 小费金额 = CHF CHF 6.57
  1. 计算总支付金额:
  • 总额 = CHF CHF 6.57 = CHF 43.07
    因此,您需要支付大约 CHF 43.07,包括 18% 的小费。 图 1 | Gemma 327 B IT 模型的视觉交互示例。
    2. 模型架构
    Gemma 3 模型遵循与前几代相同的纯解码器 Transformer 架构(Vaswani 等人,2017),大部分架构元素与前两代 Gemma 版本相似。我们使用分组查询注意力(GQA)(Ainslie 等人,2023),结合后范数和前范数与 RMSNorm(Zhang 和 Sennrich,2019)。受 Dehghani 等人(2023)、Wortsman 等人(2023)和 Chameleon 团队(2024)的启发,我们将 Gemma 2 的软上限替换为 QK 范数。在本节中,我们将重点介绍与前几代的一些关键差异。 局部/全局层 5:1 交错。我们交替使用局部滑动窗口自注意力(Beltagy 等人,2020)和全局自注意力(Luong 等人,2015),模式为每 5 层局部层对应一层全局层,模型的第一层为局部层。
    长上下文。Gemma 3 模型支持 128K 标记的上下文长度,1B 模型除外,其上下文长度为 32K。我们将全局自注意力层的 RoPE 基础频率从 10k 提高到 1M,并保持局部层的频率为 10k。我们遵循 Chen 等人(2023)的类似位置插值过程来扩展全局自注意力层的跨度。
    2.1. 视觉模态
    视觉编码器。我们使用 SigLIP 编码器的 400M 变体(Zhai 等人,2023),这是一种 Vision Transformer(Dosovitskiy,2020),通过 CLIP 损失的变体训练(Radford 等人,2021)。Gemma 视觉编码器接受调整为 的正方形图像,并在视觉助手任务数据上进行了微调。为了简化,我们在 和 27B 模型中共享视觉编码器,并在训练期间保持冻结状态。
    平移和扫描(P&S)。Gemma 视觉编码器在固定分辨率为 下运行。这会导致非正方形宽高比和高分辨率图像处理时出现伪影,导致文本不可读或小物体消失。我们通过推理时的自适应窗口算法解决了这个问题。该算法将图像分割为大小相等且不重叠的裁剪块,覆盖整个图像,并将它们调整为 像素以传递给编码器。仅在必要时应用此窗口化,并控制最大裁剪块数量。这是一个仅在推理时使用的优化,可以禁用以加快推理速度。

表 1 | Gemma 3 模型的参数计数

我们的词汇表有 256k 条目。 局部/全局层 5:1 交错。我们交替使用局部滑动窗口自注意力(Beltagy 等人,2020)和全局自注意力(Luong 等人,2015),模式为每 5 层局部层对应一层全局层,模型的第一层为局部层。
长上下文。Gemma 3 模型支持 128K 标记的上下文长度,1B 模型除外,其上下文长度为 32K。我们将全局自注意力层的 RoPE 基础频率从 10k 提高到 1M,并保持局部层的频率为 10k。我们遵循 Chen 等人(2023)的类似位置插值过程来扩展全局自注意力层的跨度。
2.1. 视觉模态
视觉编码器。我们使用 SigLIP 编码器的 400M 变体(Zhai 等人,2023),这是一种 Vision Transformer(Dosovitskiy,2020),通过 CLIP 损失的变体训练(Radford 等人,2021)。Gemma 视觉编码器接受调整为 的正方形图像,并在视觉助手任务数据上进行了微调。为了简化,我们在 和 27B 模型中共享视觉编码器,并在训练期间保持冻结状态。
平移和扫描(P&S)。Gemma 视觉编码器在固定分辨率为 下运行。这会导致非正方形宽高比和高分辨率图像处理时出现伪影,导致文本不可读或小物体消失。我们通过推理时的自适应窗口算法解决了这个问题。该算法将图像分割为大小相等且不重叠的裁剪块,覆盖整个图像,并将它们调整为 像素以传递给编码器。仅在必要时应用此窗口化,并控制最大裁剪块数量。这是一个仅在推理时使用的优化,可以禁用以加快推理速度。

表 2 | 基于数据、序列(Seq.)和副本的训练基础设施

2.2. 预训练
我们遵循与 Gemma 2 类似的知识蒸馏预训练配方。
训练数据。我们对模型的预训练使用略大于 Gemma 2 的标记预算,即对 Gemma 进行 14T 标记的训练,对 12B 版本进行 12T 标记的训练,对 4B 进行 4T 标记的训练,对 1B 进行 2T 标记的训练。标记数量的增加考虑到了预训练中使用的图像和文本混合。我们还增加了多语言数据的数量以改善语言覆盖范围。我们添加了单语和双语文本,并使用受 Chung 等人(2023)启发的策略处理语言表示的不平衡。
分词器。我们使用与 Gemini 2.0 相同的分词器:带有拆分数字、保留空白字符和字节级编码的 SentencePiece 分词器(Kudo 和 Richardson,2018)。生成的词汇表有 262k 条目。该分词器对非英语语言更加平衡。
过滤。我们使用过滤技术以减少不需要或不安全表达的风险,并删除某些个人信息和其他敏感数据。我们从预训练数据混合中去除评估集的污染,并通过最小化敏感输出的传播来降低背诵风险。我们还应用了受 Sachdeva 等人(2024)启发的质量重新加权步骤,以减少低质量数据的发生。
蒸馏。我们按教师概率加权抽取每标记 256 个 logits。学生通过交叉熵损失学习教师在这些样本中的分布。对于未采样的 logits,教师的目标分布设置为零概率,并重新归一化。

表3 原始(bfloat16)和量化检查点在 32,768 上下文大小下的内存占用比较,量化为 8 位

2.3. 量化感知训练
除了原始检查点外,我们还提供不同标准格式的量化版本模型。这些版本通过少量步骤(通常为 5,000 步)的量化感知训练(QAT)(Jacob 等人,2018)获得。我们使用非量化检查点的概率作为目标,并调整数据以匹配预训练和后训练分布。基于最受欢迎的开源量化推理引擎(例如 llama.cpp),我们专注于三种权重表示:逐通道 int4、逐块 int4 和切换 fp8。在表 3 中,我们报告了每种权重表示在有无 KV 缓存的情况下,32k 标记序列的原始和量化模型的内存占用情况。
2.4. 计算基础设施
我们使用 TPUv4、TPUv5e 和 TPUv5p 进行模型训练,如表 2 所示。每个模型配置都经过优化以最大限度地减少训练步时间。对于视觉编码器,我们预先计算每个图像的嵌入并在训练时直接使用嵌入,从而不对语言模型的训练增加任何成本。
优化器状态通过 ZeRO-3(Ren 等人,2021)的实现进行分片。对于多 pod 训练,我们通过数据中心网络进行数据副本缩减,采用 Barham 等人(2022)提出的 Pathways 方法。我们使用 Jax(Roberts 等人,2023)和 Pathways(Barham 等人,2022)的“单一控制器”编程范式,以及 GSPMD 分区器(Xu 等人,2021)和 MegaScale XLA 编译器(XLA,2019)。

表 4 | Gemma IT 模型的格式,在分词后显式添加 [BOS] 标记,或者在分词器中使用 add_bos=True 选项,不要分词文本 “[BOS]”

duction over the data center network, using the Pathways approach of Barham et al. (2022). We use the ‘single controller’ programming paradigm of Jax (Roberts et al., 2023) and Pathways (Barham et al., 2022), along with the GSPMD partitioner (Xu et al., 2021) and the MegaScale XLA compiler (XLA, 2019).
3. 指令微调
预训练模型通过改进的后训练方法转换为指令微调模型(见表 6)。
技术。我们的后训练方法依赖于改进版本的知识蒸馏(Agarwal 等人,2024;Anil 等人,2018;Hinton 等人,2015),来自大型 IT 教师,以及基于改进版本的 BOND(Sessa 等人,2024)、WARM(Ramé 等人,2024b)和 WARP(Ramé 等人,2024a)的 RL 微调阶段。
强化学习目标。我们使用多种奖励函数来提高有用性、数学、编程、推理、指令跟随和多语言能力,同时尽量减少模型的危害性。这包括从通过人类反馈数据训练的权重平均奖励模型(Ramé 等人,2024b)、代码执行反馈(Gehring 等人,2024)和解决数学问题的地面实况奖励(DeepSeek-AI,2025;Lambert 等人,2024)中学习。
数据过滤。我们精心优化用于后训练的数据以最大化模型性能。我们过滤掉显示某些个人信息、不安全或有毒模型输出、错误自我识别数据和重复示例的实例。包括鼓励更好上下文归属、对冲和拒绝以最小化幻觉的数据子集也提高了事实性指标的表现,而不会降低模型在其他指标上的表现。 [BOS] 标记。对于 PT 和 IT 模型,文本以 [BOS] 标记开头,需要显式添加,因为文本 “[BOS]” 不映射到 [BOS] 标记。例如,Flax 有一个选项 add_bos=True,可以在分词时自动添加此标记。表 4 显示了一个 IT 模型的格式示例,
PT 与 IT 格式。所有模型共享相同的分词器,其中一些控制标记专用于 IT 格式。一个关键区别是 PT 模型在生成结束时输出 标记,而 IT 模型在生成结束时输出 ,如表 4 中的 IT 所示。无论是哪种模型类型的微调都需要添加各自的结束标记。
4. 最终模型评估
在本节中,我们通过一系列自动化基准和人类评估,跨多个领域对 IT 模型进行评估,还包括静态基准如 MMLU。
4.1. LMSYS Chatbot Arena
在本节中,我们报告了我们的 IT 27B 模型在 LMSys Chatbot Arena(Chiang 等人,2024)上的盲侧对比评估结果,由人类评分员与其他最先进模型进行对比。我们在表 5 中报告 Elo 分数。Gemma 327B

表5 Gemma 327 B IT 模型在 Chatbot Arena(Chiang 等人,2024)中的评估。所有模型通过盲侧对比评估相互比较。每个模型根据 Elo 评级系统分配分数。Gemma-3-27B-IT 的数据为 2025 年 3 月 8 日收到的初步结果。

IT(1338)位列前十最佳模型之一,得分高于其他非思考型开放模型,如 DeepSeek-V3(1318)、LLaMA 3405B(1257)和 Qwen2.5-70B(1257),这些模型规模更大。最后,Gemma 3 的 Elo 分数显著高于 Gemma 2 的 1220。注意,Elo 分数未考虑视觉能力,上述提到的模型均不具备视觉能力。
4.2. 标准基准
在表 6 中,我们展示了最终模型在各种基准上的表现,与我们之前的模型迭代和 Gemini 1.5 进行了比较。我们不直接与外部模型进行比较,因为它们经常报告自己的评估设置,而在我们的设置下运行它们无法保证公平比较。我们鼓励读者参考第三方静态排行榜以获得更公平的模型间比较。我们在附录中提供了模型在其他基准上的额外评估。
5. 对比分析
在本节中,我们重点关注架构变化的影响,以及此模型新增的一些视觉能力。
5.1. 预训练能力探测
我们使用几个标准基准作为预训练期间的探测工具,以确保模型捕捉到一般能力,并在图 2 中比较了 Gemma 2 和 3 的预训练模型在这些一般能力上的质量,即科学,代码、真实性、多语言性、推理和视觉。这些图表中使用的不同公共基准的表现细节总结在附录中。总体而言,我们发现新版本在大多数类别中有所改进,尽管增加了视觉能力。我们特别关注此版本的多语言性,这直接影响了我们模型的质量。然而,尽管使用了去污染技术,这些探测器总是存在被污染的风险(Mirzadeh 等人,2024),使得得出更明确的结论变得更加困难。

表 6 | 指令微调(IT)模型在零样本基准上的表现与 Gemini 1.5、Gemini 2.0 和 Gemma 2 的比较

图 2 | Gemma 2 和 3 的不同预训练模型在一般能力上的表现摘要。这些图表旨在提供简化的总结,详细信息请参见附录


5.2. 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理期间性能和内存消耗的影响。 局部:全局比率。在图 3 中,我们比较了-


图 3 | 局部:全局比率对验证集困惑度的影响。即使局部与全局比例为 7:1,影响也很小。这种消融实验是在仅文本模型上进行的。 不同的局部与全局注意力层比率。Gemma 2 模型使用 1:1 比率,而 Gemma 3 使用 5:1 比率。我们观察到在更改此比率时对困惑度的影响很小。 滑动窗口大小。在图 4 中,我们比较了不同全局:局部比率配置下局部注意力层的不同滑动窗口大小。滑动窗口可以显著减小而不影响困惑度。


图 4 | 验证集上滑动窗口大小对困惑度的影响。我们考虑了 22B 模型,具有 1:1 和 1:3 的局部与全局层比率。这种消融实验是在仅文本模型上进行的。
对 KV 缓存内存的影响。在图 5 中,我们展示了在 32k 标记上下文中推理时模型与 KV 缓存所占内存的平衡。“全局唯一”配置是大多数密集模型使用的标准配置。“ ”用于 Gemma 2。我们观察到“全局唯一”配置导致内存开销增加 ,而使用 1:3 和滑动窗口为 1024(“sw=1024”)时,内存开销减少到不到 。在图 6 中,我们计算了我们的 2B 架构()与“全局唯一”2B 模型在不同上下文长度下的 KV 缓存内存使用情况。


图 5 | 具有 32k 预填充 KV 缓存的推理过程中模型与 KV 缓存内存对比。我们考虑了不同局部与全局比率和滑动窗口大小(sw)的 2B 模型,并与仅全局模型进行比较,后者是 Gemma 1 和 Llama 中使用的标准配置。这种消融实验是在仅文本模型上进行的。
5.3. 启用长上下文
我们不是从头开始训练 128K 序列,而是先用 32K 序列预训练模型,然后在预训练结束时将 4B、12B 和 27B 模型扩展到 128K 标记,同时重新缩放 RoPE(Chen 等人,2023)。我们发现实际操作中缩放因子为 8 效果很好。请注意,与 Gemma 2 相比,我们还将全局自注意力层的 RoPE 基础频率从 10k 提高到 1M,而局部自注意力层仍保持在 10k。在图 7 中,我们展示了不同上下文长度对困惑度的影响。我们的模型可以推广到 128K,但随着继续扩展,性能迅速下降。


图 7 | 预训练模型在 RoPE 重新缩放前后的长上下文表现。
5.4. 小型教师与大型教师
常见的发现是,为了训练小型模型,最好从较小的教师模型进行蒸馏。


图 8 | 小型与大型教师。使用小型和大型教师作为训练令牌大小的函数时的困惑度相对差异。较小的数字意味着从较大的教师模型进行蒸馏效果更好。
我们怀疑这是因为这些研究通常是在这样的环境中进行的,即使用较差的教师模型所带来的正则化效果超过了使用更优教师模型的好处。我们用不同大小的两位教师分别训练一个学生模型,训练时长各异。如图 8 所示,在较短的训练时长下,较小的教师模型表现更好;但随着训练时间延长,趋势发生了反转。
5.5. 视觉编码器

表 7 | 图像编码器输入分辨率的影响

我们使用一个简短的日程安排的 2B Gemma 模型在几个评估基准上测量性能,以观察输入图像分辨率对视觉编码器预训练的影响。
图像分辨率的影响。我们使用基于 SigLIP 的视觉编码器(Zhai 等人,2023)。视觉编码器是固定的,仅训练语言模型。在这一多模态数据中,每张图像由视觉编码器表示为 256 个图像标记。因此,更高分辨率的编码器使用平均池化将其输出减少到 256 个标记。例如,896 分辨率编码器在其输出上具有 平均池化。如表 7 所示,高分辨率编码器比低分辨率编码器表现更好。

表 8 | P&S 的影响

在预训练检查点上进行四次评估的结果,带与不带 P&S。提升体现在与具有不同宽高比的图像相关的任务或涉及从图像中读取文本的任务上。
平移和扫描。P&S 允许以接近原生宽高比和图像分辨率捕捉图像。如表 8 所示,我们将我们的 27B IT 模型与带与不带 P&S 进行比较。正如预期的那样,处理接近原生分辨率的图像的能力极大地帮助了需要某种形式的从图像中读取文本的任务,这对视觉语言模型尤为重要。
6. 记忆化与隐私
大型语言模型可能会生成训练数据中某些文本的近似副本(Biderman 等人,2023;Carlini 等人,2021, 2022;Ippolito 等人,2022;Nasr 等人,2023)。多项先前报告已发布了量化这种风险的审计,通过测量记忆率(Anil 等人,2023;Chowdhery 等人,2022;Gemini 团队,2023, 2024;Gemma 团队,2024a,b;LLaMa 团队,2024)。此“记忆率”定义为模型生成的内容与训练数据匹配的比例相对于所有模型生成内容的比例,具体设置如下。我们遵循 Gemma 团队
3 4: 我们在此处并未声明或暗示某个模型“包含”其训练数据,即模型内存在该数据的副本。相反,模型记住了其训练数据的属性,以至于在某些情况下,它能够统计生成此类训练数据,这是遵循规则并利用其所含特征信息的结果。

图 9 | 精确记忆和近似记忆的总记忆率

Gemma 3 模型的记忆率显著低于所有先前模型。*无关于这些模型的近似记忆结果。 (2024b) 的方法来测量。具体而言,我们从不同的语料库中均匀抽取大量训练数据,并使用长度为 50 的前缀和长度为 50 的后缀测试这部分内容的可提取性(Nasr 等人,2023)。如果续接的所有标记与源后缀完全匹配,则文本被视为“精确记忆”;如果它们在编辑距离为 范围内匹配,则被视为“近似记忆”。
图 9 比较了 Gemma 和 Gemini 模型的记忆率;这些模型按逆时间顺序排列,最新的 Gemma 3 模型位于左侧。我们发现 Gemma 3 模型对长篇文本的记忆率远低于先前模型(注意 y 轴为对数)。我们观察到 4B、12B 和 27B 模型之间的记忆率仅有边际差异,而 1B 模型记忆率低于这些较大模型。此外,我们发现更大比例的文本被归类为近似记忆,相对精确记忆的近似记忆增加了约 24 倍。
我们还研究了生成内容可能包含个人信息的频率。为了识别潜在的个人信息,我们使用 Google Cloud 敏感数据保护 (SDP) 服务。 SDP 使用广泛的检测规则来识别可能包含个人信息的文本。SDP 设计为具有高召回率,且不考虑信息出现的上下文,这导致许多误报。因此,我们可能高估了分类为记忆内容中实际包含的潜在个人信息量。SDP 还提供了广泛的严重性级别:低、中和高。我们将在任何严重性级别上被 SDP 分类为个人信息的文本视为个人数据。我们在所有 Gemma 3 模型中未观察到分类为记忆内容的输出中包含个人数据,这表明在分类为记忆内容的输出中,个人数据的比例很低,低于我们的检测阈值。
7. 责任、安全、保障
责任、安全和保障在 Gemma 模型的开发中至关重要。为了减少 Gemma 3 用户的风险,我们继续整合增强的内部安全流程,涵盖整个开发工作流,与最近的 Google AI 模型一致(Gemini 团队,2024)。这侧重于训练时的安全缓解措施,以及对我们新引入的图像到文本功能进行稳健且透明的模型评估。
7.1. 管理与评估
我们对 Gemma 的收益和风险评估方法延续了 Gemma 1 中概述的方法(Gemma 团队,2024a),同时考虑了支持模态的变化。我们仍然相信,开放人工智能可以将这些技术的好处传播到社会各个层面,但必须针对恶意使用的风险进行评估,这些风险可能对个人和机构层面造成伤害(Weidinger 等人,2021)。自首次推出 Gemma 以来,我们已经看到这些模型推动了许多有益于社会的应用,例如我们自己的 ShieldGemma 2,这是一个 4B 图像安全分类器,由 Gemma 3 构建,提供现成的解决方案,输出涵盖危险内容、色情内容和暴力类别的安全标签。
发布 Gemma 3 模型需要特别关注模型能力的变化和
尽管能力有所提升,我们认为,鉴于已有大量更大的强大开源模型可用,此次发布对整体风险格局的影响将微乎其微。
7.2. 安全政策和训练时缓解措施
Gemma 方法的关键支柱之一是使微调模型与 Google 的安全政策保持一致,与 Gemini 模型(Gemini 团队,2023)一致。它们旨在防止我们的模型生成有害内容,即:

  • 儿童性虐待和剥削
  • 泄露可能导致伤害的个人身份信息(例如社会保障号码)
  • 种族歧视言论和骚扰
  • 危险或恶意内容(包括促进自我伤害或指导有害活动)
  • 色情内容
  • 违背科学或医学共识的医疗建议

我们在预训练数据中进行了大量的安全过滤,以减少预训练和微调检查点生成有害内容的可能性。对于微调模型,我们还使用 SFT 和 RLHF 来引导模型远离不良行为。

7.3. 安全性评估

我们还让我们的 IT 模型通过一系列基线安全性评估,以了解我们的模型可能造成的潜在危害。作为开放模型的支持者,我们也认识到权重发布的不可逆性质需要 严格的风险评估。我们的内部安全流程相应设计,并且对于之前的 Gemma 模型,我们还进行了与极端风险相关的功能评估(Phuong 等人,2024;Shevlane 等人,2023)。随着我们继续开发和共享开放模型,我们将遵循这样一个经验法则:彻底评估更强大的模型通常足以确保较弱模型的安全性。因此,我们为 Gemma 3 优先进行了一套简化评估,为特定模型可能存在潜在升高的风险情况保留深入的危险能力评估(如下所述的 CBRN 评估)。我们在开发速度与针对性安全测试之间取得平衡,确保我们的评估既重点突出又高效,同时遵守我们在前沿安全框架中做出的承诺。

基准评估

基准保证涵盖了使用大量合成对抗用户查询的安全策略违规率,并通过人工评分员标注答案是否违反政策。总体而言,Gemma 3 在这些安全策略上的违规率极低。

化学、生物、放射性和核(CBRN)知识

由于在 STEM 相关任务上的性能增强,我们使用内部封闭式知识型多项选择题集评估了与生物、放射性和核风险相关的知识。对于化学知识的评估,我们采用了 Macknight 等人开发的封闭式知识型方法。我们的评估表明,Gemma 3 模型在这些领域的知识水平较低。

7.4. 我们对负责任开放模型的策略

设计安全、可靠和负责任的应用程序需要系统级的方法,努力缓解每个特定使用场景和环境相关联的风险。我们将继续采用与模型潜在风险相称的评估和安全缓解措施,并 仅在我们确信收益明显超过可预见风险的情况下与社区分享。

8. 讨论与结论

在这项工作中,我们介绍了 Gemma 3,这是 Gemma 开源语言模型系列的最新成员,适用于文本、图像和代码。在这个版本中,我们专注于添加图像理解和长上下文,同时改进多语言和 STEM 相关能力。我们的模型尺寸和架构设计为与标准硬件兼容,大多数架构改进都针对这种硬件进行了调整,同时保持性能。

参考文献

Realworldqa. https://x.ai/news/grok-1. 5 v . M. Acharya, K. Kafle, 和 C. Kanan. Tallyqa: 回答复杂的计数问题。在 AAAI 中,2018. R. Agarwal, N. Vieillard, Y. Zhou, P. Stanczyk, S. R. Garea, M. Geist, 和 O. Bachem. 面向语言模型的在线蒸馏:从自我生成错误中学习。在 ICLR 中,2024. J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, 和 S. Sanghai. GQA: 从多头检查点训练通用多查询 Transformer 模型。arXiv 预印本 arXiv:2305.13245, 2023. R. Anil, G. Pereyra, A. Passos, R. Ormandi, G. E. Dahl, 和 G. E. Hinton. 大规模分布式神经网络训练通过在线蒸馏实现。arXiv 预印本 arXiv:1804.03235, 2018. R. Anil, A. M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen, 等. Palm 2 技术报告。arXiv 预印本 arXiv:2305.10403, 2023. M. Artetxe, S. Ruder, 和 D. Yogatama. 单语表示的跨语言迁移能力。在 ACL 中,2020. A. Asai, J. Kasai, J. H. Clark, K. Lee, E. Choi, 和 H. Hajishirzi. Xor qa: 跨语言开放式检索问答。arXiv 预印本 arXiv:2010.11856, 2020. J. Austin, A. Odena, M. I. Nye, M. Bosma, H. Michalewski, D. Dohan, E. Jiang, C. J. Cai, M. Terry, Q. V. Le, 和 C. Sutton. 使用大语言模型进行程序合成。CoRR, abs/2108.07732, 2021. P. Barham, A. Chowdhery, J. Dean, S. Ghemawat, S. Hand, D. Hurt, M. Isard, H. Lim, R. Pang, S. Roy, B. Saeta, P. Schuh, R. Sepassi, L. E. Shafey, C. A. Thekkath, 和 Y. Wu. Pathways: 异步分布式机器学习的数据流,2022. I. Beltagy, M. E. Peters, 和 A. Cohan. Longformer: 长文档 Transformer。arXiv 预印本 arXiv:2004.05150, 2020. S. Biderman, U. Prashanth, L. Sutawika, H. Schoelkopf, Q. Anthony, S. Purohit, 和 E. Raff. 大型语言模型中的突发性和可预测记忆化。NeurIPS, 36: 28072-28090, 2023. Y. Bisk, R. Zellers, R. L. Bras, J. Gao, 和 Y. Choi. PIQA: 自然语言中的物理常识推理。CoRR, abs/1911.11641, 2019. N. Carlini, F. Tramer, E. Wallace, M. Jagielski, A. Herbert-Voss, K. Lee, A. Roberts, T. Brown, D. Song, U. Erlingsson, 等. 提取大型语言模型的训练数据。在 USENIX 中,2021. N. Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, 和 C. Zhang. 量化神经语言模型的记忆化。arXiv 预印本 arXiv:2202.07646, 2022.

变色龙团队。变色龙:混合模态早期融合基础模型。arXiv 预印本 arXiv:2405.09818,2024。 M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, 和 W. Zaremba. 评估经过代码训练的大规模语言模型。CoRR, abs/2107.03374, 2021. S. Chen, S. Wong, L. Chen, 和 Y. Tian. 通过位置插值扩展大规模语言模型的上下文窗口。arXiv 预印本 arXiv:2306.15595, 2023. X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P. Dollár, 和 C. L. Zitnick. Microsoft COCO 标注:数据收集和评估服务器。ArXiv, abs/1504.00325, 2015. W.-L. Chiang, L. Zheng, Y. Sheng, A. N. Angelopoulos, T. Li, D. Li, H. Zhang, B. Zhu, M. Jordan, J. E. Gonzalez, 和 I. Stoica. Chatbot Arena: 一个基于人类偏好的评估 LLM 的开放平台,2024. F. Chollet. 智力度量的研究。arXiv 预印本 arXiv:1911.01547, 2019. A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, P. Schuh, K. Shi, S. Tsvyashchenko, J. Maynez, A. Rao, P. Barnes, Y. Tay, N. Shazeer, V. Prabhakaran, E. Reif, N. Du, B. Hutchinson, R. Pope, J. Bradbury, J. Austin, M. Isard, G. Gur-Ari, P. Yin, T. Duke, A. Levskaya, S. Ghemawat, S. Dev, H. Michalewski, X. Garcia, V. Misra, K. Robinson, L. Fedus, D. Zhou, D. Ippolito, D. Luan, H. Lim, B. Zoph, A. Spiridonov, R. Sepassi, D. Dohan, S. Agrawal, M. Omernick, A. M. Dai, T. S. Pillai, M. Pellat, A. Lewkowycz, E. Moreira, R. Child, O. Polozov, K. Lee, Z. Zhou, X. Wang, B. Saeta, M. Diaz, O. Firat, M. Catasta, J. Wei, K. Meier-Hellstern, D. Eck, J. Dean, S. Petrov, 和 N. Fiedel. Palm: 使用 Pathways 扩展语言建模,2022. H. W. Chung, N. Constant, X. Garcia, A. Roberts, Y. Tay, S. Narang, 和 O. Firat. Unimax: 更公平且更有效的大型多语言预训练语言采样,2023. C. Clark, K. Lee, M. Chang, T. Kwiatkowski, M. Collins, 和 K. Toutanova. BoolQ: 探索自然是非问题的惊人难度。CoRR, abs/1905.10044, 2019. K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, C. Hesse, 和 J. Schulman. 训练验证器解决数学文字问题。CoRR, abs/2110.14168, 2021.

DeepSeek-AI. Deepseek-r1: 激励推理学习,2025. M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, 等. 将视觉变压器扩展至 220 亿参数。在 ICML 中,2023. D. Deutsch, E. Briakou, I. Caswell, M. Finkelstein, R. Galor, J. Juraska, G. Kovacs, A. Lui, R. Rei, J. Riesa, S. Rijhwani, P. Riley, E. Salesky, F. Trabelsi, S. Winkler, B. Zhang, 和 M. Freitag. WMT24++: 扩展 WMT24 至 55 种语言和方言的覆盖范围,2025. A. Dosovitskiy. 一张图片值 16x16 个词:用于大规模图像识别的变压器。arXiv 预印本 arXiv:2010.11929, 2020. D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, 和 M. Gardner. DROP: 需要离散推理的阅读理解基准。在 ACL 中,2019. B. Fatemi, M. Kazemi, A. Tsitsulin, K. Malkan, J. Yim, J. Palowitch, S. Seo, J. Halcrow, 和 B. Perozzi. 时间测试:用于评估 LLM 时序推理的基准。arXiv 预印本 arXiv:2406.09170, 2024. X. Fu, Y. Hu, B. Li, Y. Feng, H. Wang, X. Lin, D. Roth, N. A. Smith, W.-C. Ma, 和 R. Krishna. Blink: 多模态大型语言模型能看见但不能感知。ArXiv, abs/2404.12390, 2024. J. Gehring, K. Zheng, J. Copet, V. Mella, T. Cohen, 和 G. Synnaeve. RLEF: 使用强化学习通过执行反馈将代码 LLM 接地。arXiv 预印本 arXiv:2410.02089, 2024.

Gemini 团队。Gemini: 一组高度功能化的多模态模型,2023。

Gemini 团队。Gemini 1.5: 解锁数百万标记上下文中多模态理解的功能,2024。

Gemma 团队。Gemma: 基于 Gemini 研究和技术的开源模型,2024a。

Gemma 团队。Gemma 2: 在实用规模上改进开源语言模型。arXiv 预印本 arXiv:2408.00118, 2024b. O. Goldman, U. Shaham, D. Malkin, S. Eiger, A. Hassidim, Y. Matias, J. Maynez, A. M. Gilady, J. Riesa, S. Rijhwani, L. Rimell, I. Szpektor, R. Tsarfaty, 和 M. Eyal. Eclektic: 一种新型挑战集,用于评估跨语言知识迁移,2025. N. Goyal, C. Gao, V. Chaudhary, P.-J. Chen, G. Wenzek, D. Ju, S. Krishnan, M. Ranzato, F. Guzmán, 和 A. Fan. FLORES-101 评估基准:低资源和多语言机器翻译的语言覆盖范围扩展。ACL, 2022. Y. Goyal, T. Khot, D. Summers-Stay, D. Batra, 和 D. Parikh. 让 V 在 VQA 中起作用:提升视觉问答中图像理解的角色。在 CVPR 中,2017. D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, 和 J. Steinhardt. 测量大规模多任务语言理解。CoRR, abs/2009.03300, 2020. D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, 和 J. Steinhardt. 使用 Math 数据集衡量数学问题解决能力。NeurIPS, 2021. J. Hessel, A. Marasović, J. D. Hwang, L. Lee, J. Da, R. Zellers, R. Mankoff, 和 Y. Choi. 电子羊会笑吗?来自纽约客标题竞赛的幽默”理解”基准。arXiv 预印本 arXiv:2209.06293, 2022. G. Hinton, O. Vinyals, 和 J. Dean. 蒸馏神经网络的知识。arXiv 预印本 arXiv:1503.02531, 2015. C.-P. Hsieh, S. Sun, S. Kriman, S. Acharya, D. Rekesh, F. Jia, Y. Zhang, 和 B. Ginsburg. Ruler: 你的长上下文语言模型的真实上下文大小是多少?arXiv 预印本 arXiv:2404.06654, 2024. D. Ippolito, F. Tramèr, M. Nasr, C. Zhang, M. Jagielski, K. Lee, C. A. Choquette-Choo, 和 N. Carlini. 防止语言模型逐字记忆并不能提供虚假的安全感。arXiv 预印本 arXiv:2210.17546, 2022. B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam, 和 D. Kalenichenko. 用于高效整数算术推理的神经网络量化和训练。在 CVPR 中,2018. M. Joshi, E. Choi, D. S. Weld, 和 L. Zettlemoyer. TriviaQA: 一个大规模远程监督的阅读理解挑战数据集。CoRR, abs/1705.03551, 2017. M. Kazemi, H. Alvari, A. Anand, J. Wu, X. Chen, 和 R. Soricut. Geomverse: 对大型模型几何推理的系统评估。arXiv 预印本 arXiv:2312.12241, 2023. M. Kazemi, N. Dikkala, A. Anand, P. Dević, I. Dasgupta, F. Liu, B. Fatemi, P. Awasthi, D. Guo, S. Gollapudi, 和 A. Qureshi. Remi: 一个多图像推理数据集。ArXiv, abs/2406.09175, 2024a. M. Kazemi, Q. Yuan, D. Bhatia, N. Kim, X. Xu, V. Imbrasaite, 和 D. Ramachandran. BoardgameQA: 一个用于处理矛盾信息的自然语言推理数据集。NeurIPS, 36, 2024b. M. Kazemi, B. Fatemi, H. Bansal, J. Palowitch, C. Anastasiou, S. V. Mehta, L. K. Jain, V. Aglietti, D. Jindal, P. Chen, 等. Big-bench Extra Hard. arXiv 预印本 arXiv:2502.19187, 2025. A. Kembhavi, M. Salvato, E. Kolve, M. Seo, H. Hajishirzi, 和 A. Farhadi. 一幅图表胜过十几张图片。ArXiv, abs/1603.07396, 2016. E. Kıcman, R. Ness, A. Sharma, 和 C. Tan. 因果推理和大型语言模型:开启因果关系的新领域。arXiv 预印本 arXiv:2305.00050, 2023. T. Kudo 和 J. Richardson. SentencePiece: 一种简单且语言无关的子词分词和反分词器,用于神经文本处理。2018. T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. Parikh, C. Alberti, D. Epstein, I. Polosukhin, J. Devlin, K. Lee, K. Toutanova, L. Jones, M. Kelcey, M.-W. Chang, A. M. Dai, J. Uszkoreit, Q. Le, 和 S. Petrov. Natural Questions: 一个面向问题回答研究的基准。ACL, 2019. N. Lambert, J. Morrison, V. Pyatkin, S. Huang, H. Ivison, F. Brahman, L. J. V. Miranda, A. Liu, N. Dziri, S. Lyu, 等. T1st ulu 3: 推动开源语言模型后训练的前沿。arXiv 预印本 arXiv:2411.15124, 2024. Z. Lin, J. Cui, X. Liao, 和 X. Wang. Malla: 揭秘现实世界大型语言模型集成的恶意服务,2024. H. Liu, C. Li, Q. Wu, 和 Y. J. Lee. 视觉指令微调。NeurIPS, 36, 2024.

LLaMa 团队。The llama 3 herd of models. arXiv 预印本 arXiv:2407.21783, 2024. M. Luong, H. Pham, 和 C. D. Manning. 面向神经机器翻译的有效注意力机制方法。2015.

Macknight, Aung, 和 Gomes. 个人通信。 K. Marino, M. Rastegari, A. Farhadi, 和 R. Mottaghi. OK-VQA: 一个需要外部知识的视觉问答基准。在 CVPR 中,2019. A. Masry, X. L. Do, J. Q. Tan, S. Joty, 和 E. Hoque. ChartQA: 一个结合视觉和逻辑推理的问题回答基准。ACL, 2022. M. Mathew, D. Karatzas, R. Manmatha, 和 C. V. Jawahar. DocVQA: 一个文档图像上的视觉问答数据集。WACV, 2020. M. Mathew, V. Bagal, R. Tito, D. Karatzas, E. Valveny, 和 C. Jawahar. InfographicVQA. 在 WACV 中,2022. I. Mirzadeh, K. Alizadeh, H. Shahrokhi, O. Tuzel, S. Bengio, 和 M. Farajtabar. GSM-Symbolic: 理解大型语言模型在数学推理方面的局限性。arXiv 预印本 arXiv:2410.05229, 2024. M. Nasr, N. Carlini, J. Hayase, M. Jagielski, A. F. Cooper, D. Ippolito, C. A. Choquette-Choo, E. Wallace, F. Tramèr, 和 K. Lee. 从(生产)语言模型中可扩展提取训练数据。arXiv 预印本 arXiv:2311.17035, 2023. A. Nie, Y. Zhang, A. S. Amdekar, C. Piech, T. B. Hashimoto, 和 T. Gerstenberg. MOCA: 在因果和道德判断任务上测量人类-语言模型一致性。NeurIPS, 36, 2024. R. Paiss, A. Ephrat, O. Tov, S. Zada, I. Mosseri, M. Irani, 和 T. Dekel. 教授 CLIP 数数到十。ICCV, 2023. M. Phuong, M. Aitchison, E. Catt, S. Cogan, A. Kaskasoli, V. Krakovna, D. Lindner, M. Rahtz, Y. Assael, S. Hodkinson, H. Howard, T. Lieberum, R. Kumar, M. A. Raad, A. Webson, L. Ho, S. Lin, S. Farquhar, M. Hutter, G. Deletang, A. Ruoss, S. El-Sayed, S. Brown, A. Dragan, R. Shah, A. Dafoe, 和 T. Shevlane. 评估前沿模型的危险能力,2024. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, 等. 从自然语言监督中学习可转移的视觉模型。在 ICML 中,第 8748-8763 页。PMLR, 2021. A. Ramé, J. Ferret, N. Vieillard, R. Dadashi, L. Hussenot, P.-L. Cedoz, P. G. Sessa, S. Girgin, A. Douillard, 和 O. Bachem. WARP: 权重平均奖励策略的优势,2024a. A. Ramé, N. Vieillard, L. Hussenot, R. Dadashi, G. Cideron, O. Bachem, 和 J. Ferret. WARM: 权重平均奖励模型的优势。在 ICML 中,2024b. D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, 和 S. R. Bowman. GPQA: 一个研究生级别的谷歌证明问答基准。ArXiv, abs/2311.12022 J. Ren, S. Rajbhandari, R. Y. Aminabadi, O. Ruwase, S. Yang, M. Zhang, D. Li, 和 Y. He. Zero-offload: 民主化数十亿规模模型的训练。在 USENIX 中,2021. A. Roberts, H. W. Chung, G. Mishra, A. Levskaya, J. Bradbury, D. Andor, S. Narang, B. Lester, C. Gaffney, A. Mohiuddin, 等. 使用 T5X 和 SeqIO 扩展模型和数据。JMLR, 2023. N. Sachdeva, B. Coleman, W.-C. Kang, J. Ni, L. Hong, E. H. Chi, J. Caverlee, J. McAuley, 和 D. Z. Cheng. 如何训练数据高效的 LLM。arXiv 预印本 arXiv:2402.09668, 2024. K. Sakaguchi, R. L. Bras, C. Bhagavatula, 和 Y. Choi. WINOGRANDE: 一个大规模对抗性 Winograd Schema 挑战。CoRR, abs/1907.10641, 2019. E. Sánchez, B. Alastruey, C. Ropers, P. Stenetorp, M. Artetxe, 和 M. R. Costa-jussà. Linguini: 一个语言无关的语义推理基准。arXiv 预印本 arXiv:2409.12126, 2024. M. Sap, H. Rashkin, D. Chen, R. L. Bras, 和 Y. Choi. SocialiQA: 关于社会互动的常识推理。CoRR, abs/1904.09728, 2019. P. G. Sessa, R. Dadashi, L. Hussenot, J. Ferret, N. Vieillard, A. Ramé, B. Shariari, S. Perrin, A. Friesen, G. Cideron, S. Girgin, P. Stanczyk, A. Michi, D. Sinopalnikov, S. Ramos, A. Héliou, A. Severyn, M. Hoffman, N. Momchev, 和 O. Bachem. BOND: 使用最佳 n 蒸馏对齐 LLM,2024. K. Shah, N. Dikkala, X. Wang, 和 R. Panigrahy. 因果语言建模可以激发逻辑谜题中的搜索和推理能力。arXiv 预印本 arXiv:2409.10502, 2024. T. Shevlane, S. Farquhar, B. Garfinkel, M. Phuong, J. Whittlestone, J. Leung, D. Kokotajlo, N. Marchal, M. Anderljung, N. Kolt, L. Ho, D. Siddarth, S. Avin, W. Hawkins, B. Kim, I. Gabriel, V. Bolina, J. Clark, Y. Bengio, P. Christiano, 和 A. Dafoe. 极端风险下的模型评估,2023. F. Shi, M. Suzgun, M. Freitag, X. Wang, S. Srivats, S. Vosoughi, H. W. Chung, Y. Tay, S. Ruder, D. Zhou, D. Das, 和 J. Wei. 语言模型是多语言链式推理者。在 ICLR 中,2023. A. Singh, V. Natarjan, M. Shah, Y. Jiang, X. Chen, D. Parikh, 和 M. Rohrbach. 朝着能够阅读的 VQA 模型迈进。在 CVPR 中,2019. H. Singh, N. Gupta, S. Bharadwaj, D. Tewari, 和 P. Talukdar. IndicGenBench: 一个用于评估印度语言 LLM 生成能力的多语言基准。arXiv 预印本 arXiv:2404.16816, 2024a. S. Singh, A. Romanou, C. Fourrier, D. I. Adelani, J. G. Ngui, D. Vila-Suero, P. Limkonchotiwat, K. Marchisio, W. Q. Leong, Y. Susanto, R. Ng, S. Longpre, W.-Y. Ko, M. Smith, A. Bosselut, A. Oh, A. F. T. Martins, L. Choshen, D. Ippolito, E. Ferrante, M. Fadaee, B. Ermis, 和 S. Hooker. Global MMLU: 理解和解决多语言评估中的文化和语言偏见问题,2024b. A. Steiner, A. S. Pinto, M. Tschannen, D. Keysers, X. Wang, Y. Bitton, A. Gritsenko, M. Minderer, A. Sherbondy, S. Long, S. Qin, R. Ingle, E. Bugliarello, S. Kazemzadeh, T. Mesnard, I. Alabdulmohsin, L. Beyer, 和 X. Zhai. PaliGemma 2: 一个多功能 VLM 家族用于迁移。arXiv 预印本 arXiv:2412.03555, 2024. M. Suzgun, N. Scales, N. Schärli, S. Gehrmann, Y. Tay, H. W. Chung, A. Chowdhery, Q. V. Le, E. H. Chi, D. Zhou, 和 J. Wei. 挑战大基准任务以及链式思维是否能解决它们,2022. G. Tyen, H. Mansoor, P. Chen, T. Mak, 和 V. Cärbune. LLM 无法发现推理错误,但可以纠正它们!arXiv 预印本 arXiv:2311.08516, 2023. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, 和 I. Polosukhin. 注意力就是你所需要的。2017. K. Vodrahalli, S. Ontanon, N. Tripuraneni, K. Xu, S. Jain, R. Shivanna, J. Hui, N. Dikkala, M. Kazemi, B. Fatemi, 等. Michelangelo: 通过潜在结构查询超越堆栈的长上下文评估。arXiv 预印本 arXiv:2409.12640, 2024. Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, 等. MMLU-Pro: 更强大且具有挑战性的多任务语言理解基准。在 NeurIPS 中,2024. L. Weidinger, J. Mellor, M. Rauh, C. Griffin, J. Uesato, P.-S. Huang, M. Cheng, M. Glaese, B. Balle, A. Kasirzadeh, Z. Kenton, S. Brown, W. Hawkins, T. Stepleton, C. Biles, A. Birhane, J. Haas, L. Rimell, L. A. Hendricks, W. Isaac, S. Legassick, G. Irving, 和 I. Gabriel. 语言模型的伦理和社会风险,2021. C. White, S. Dooley, M. Roberts, A. Pal, B. Feuer, S. Jain, R. Shwartz-Ziv, N. Jain, K. Saifullah, S. Naidu, 等. Livebench: 一个具有挑战性且无污染的 LLM 基准。arXiv 预印本 arXiv:2406.19314, 2024. M. Wortsman, P. J. Liu, L. Xiao, K. Everett, A. Alemi, B. Adlam, J. D. Co-Reyes, I. Gur, A. Kumar, R. Novak, 等. 小规模代理对于大型 Transformer 训练不稳定性的影响。arXiv 预印本 arXiv:2309.14322, 2023.

XLA. XLA: TensorFlow 的优化编译器,2019. URL https://www.tensorflow.org/xla. Y. Xu, H. Lee, D. Chen, B. A. Hechtman, Y. Huang, R. Joshi, M. Krikun, D. Lepikhin, A. Ly, M. Maggioni, R. Pang, N. Shazeer, S. Wang, T. Wang, Y. Wu, 和 Z. Chen. GSPMD: 通用且可扩展的 ML 计算图并行化方法。2021. Y. Yamada, Y. Bao, A. K. Lampinen, J. Kasai, 和 I. Yildirim. 评估大型语言模型的空间理解能力。arXiv 预印本 arXiv:2310.14540, 2023. K. Yang, O. Russakovsky, 和 J. Deng. SpatialSense: 一种对抗性众包的 基准,用于空间关系识别。ICCV, 2019. X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun, C. Wei, B. Yu, R. Yuan, R. Sun, M. Yin, B. Zheng, Z. Yang, Y. Liu, W. Huang, H. Sun, Y. Su, 和 W. Chen. MMMU: 一个专家 AGI 的大规模多学科多模态理解和推理基准。CVPR, 2023. R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, 和 Y. Choi. HellaSwag: 机器真的能完成你的句子吗? 在 ACL 中,2019. X. Zhai, B. Mustafa, A. Kolesnikov, 和 L. Beyer. Sigmoid 损失函数用于语言图像预训练。在 CVPR 中,2023. B. Zhang 和 R. Sennrich. 平方根均值层归一化。2019. J. Zhang, L. Jain, Y. Guo, J. Chen, K. L. Zhou, S. Suresh, A. Wagenmaker, S. Sievert, T. Rogers, K. Jamieson, 等. AI 中的幽默:大规模人群来源偏好和卡通标题基准。arXiv 预印本 arXiv:2406.10522, 2024. W. Zhong, R. Cui, Y. Guo, Y. Liang, S. Lu, Y. Wang, A. Saied, W. Chen, 和 N. Duan. Agieval: 一个人类为中心的基础模型评估基准,2023. 核心贡献者 Aishwarya Kamath* Johan Ferret* Shreya Pathak* Nino Vieillard* Ramona Merhej* Sarah Perrin* Tatiana Matejovicova* Alexandre Ramé* Morgane Rivière* Louis Rouillard* Thomas Mesnard* Geoffrey Cideron* Jean-bastien Grill* Sabela Ramos* Edouard Yvinec* Michelle Casbon* Etienne Pot Ivo Penchev Gaël Liu Francesco Visin Kathleen Kenealy Lucas Beyer Xiaohai Zhai Anton Tsitsulin Robert Busa-Fekete Alex Feng Noveen Sachdeva Benjamin Coleman Yi Gao Basil Mustafa Iain Barr Emilio Parisotto David Tian Matan Eyal Colin Cherry Jan-Thorsten Peter Danila Sinopalnikov Surya Bhupatiraju Rishabh Agarwal Mehran Kazemi Dan Malkin Ravin Kumar David Vilar Idan Brusilovsky Jiaming Luo Andreas Steiner

5 ## 贡献者(按字母顺序)

Abe Friesen Abhanshu Sharma Abheesht Sharma Adi Mayrav Gilady Adrian Goedeckemeyer Alaa Saade Alex Feng Alexander Kolesnikov Alexei Bendebury Alvin Abdagic Amit Vadi András György André Susano Pinto Anil Das Ankur Bapna Antoine Miech Antoine Yang Antonia Paterson Ashish Shenoy Ayan Chakrabarti Bilal Piot Bo Wu Bobak Shahriari Bryce Petrini Charlie Chen Charline Le Lan Christopher A. Choquette-Choo CJ Carey Cormac Brick Daniel Deutsch Danielle Eisenbud Dee Cattle Derek Cheng Dimitris Paparas Divyashree Shivakumar Sreepathihalli Doug Reid Dustin Tran Dustin Zelle Eric Noland Erwin Huizenga Eugene Kharitonov Frederick Liu Gagik Amirkhanyan Glenn Cameron Hadi Hashemi Hanna Klimczak-Plucińska Harman Singh Harsh Mehta

Reza Rokni Rob Willoughby Rohith Vallu Ryan Mullins Sammy Jerome Sara Smoot Sertan Girgin Shariq Iqbal Shashir Reddy Shruti Sheth Siim Pôder Sijal Bhatnagar Sindhu Raghuram Panyam Sivan Eiger Susan Zhang Tianqi Liu Trevor Yacovone Tyler Liechty Uday Kalra Utku Evci Vedant Misra Vincent Roseberry Vlad Feinberg Vlad Kolesnikov Woohyun Han Woosuk Kwon Xi Chen Yinlam Chow Yuvein Zhu Zichuan Wei Zoltan Egyed

支持

Victor Cotruta Minh Giang Phoebe Kirk Anand Rao Kat Black Nabila Babar Jessica Lo Erica Moreira Luiz Gustavo Martins Omar Sanseviero Lucas Gonzalez Zach Gleicher Tris Warkentin

赞助商 Vahab Mirrokni Evan Senter Eli Collins Joelle Barral Zoubin Ghahramani Raia Hadsell Yossi Matias D. Sculley

Slav Petrov Noah Fiedel Noam Shazeer Oriol Vinyals Jeff Dean Demis Hassabis Koray Kavukcuoglu Clement Farabet

技术顾问 Elena Buchatskaya Jean-Baptiste Alayrac Rohan Anil Dmitry (Dima) Lepikhin Sebastian Borgeaud Olivier Bachem

主导人

Armand Joulin

技术主导人 Alek Andreev Cassidy Hardin Robert Dadashi Léonard Hussenot ## 附录

预训练性能的详细信息。

表 9 | 预训练阶段的事实性和常识推理及推理表现

事实性和常识推理。在表 9 中,我们报告了新预训练基准与之前版本的比较结果。我们考虑了几项标准基准测试,包括 HellaSwag (Zellers 等人, 2019),BoolQ (Clark 等人, 2019),PIQA (Bisk 等人, 2019),SIQA (Sap 等人, 2019),TriviaQA (Joshi 等人, 2017),Natural Questions (Kwiatkowski 等人, 2019),ARC-C 和 ARC-E (Chollet, 2019),WinoGrande (Sakaguchi 等人, 2019),BBH (Suzgun 等人, 2022),DROP (Dua 等人, 2019)。评估细节描述在表 19 中。总体而言,我们的模型与 Gemma 2 表现相当,这令人鼓舞,因为这些能力不是此版本改进的重点。

STEM 和代码。我们在 STEM 和 Code 方面的表现详情见表 10。我们考虑了几项标准基准测试,包括 MMLU (Hendrycks 等人, 2020),MMLU-Pro (Wang 等人, 2024),AGIEval (Zhong 等人, 2023),MATH (Hendrycks 等人, 2021),GSM8K (Cobbe 等人, 2021),GPQA (Rein 等人, 2023),MBPP (Austin 等人, 2021),HumanEval (Chen 等人, 2021)。评估细节描述在表 19 中。总体而言,我们看到在 STEM 能力上的一致提升,

表 10 | 预训练阶段的 STEM 和代码表现

预训练模型。在代码方面,我们看到 4B 和 12B 模型有类似的改进,但在 27B 模型上没有。

表 11 | 预训练阶段的多模态表现

分数是在每个数据集的验证分割上给出的,不使用 P&S。

图像理解。在表 11 中,我们报告了多个视觉问答基准测试的表现,这些模型都是用视觉编码器进行训练的,包括 COCO Caption (Chen 等人, 2015), DocVQA (Mathew 等人, 2020), InfographicVQA (Mathew 等人, 2022), MMMU (Yue 等人, 2023), TextVQA (Singh 等人, 2019), RealWorldQA (Rea), ReMI (Kazemi 等人, 2024a), AI2D (Kembhavi 等人, 2016), ChartQA (Masry 等人, 2022), VQA v2 (Goyal 等人, 2017), BLINK (Fu 等人, 2024), OK-VQA (Marino 等人, 2019), TallyQA (Acharya 等人, 2018), SpatialSense VQA (Yang 等人, 2019), CountBench VQA (Paiss 等人, 2023)。评估细节描述在表 20 中。

表 12 | 在多模态基准上微调后预训练检查点的表现(不使用 P&S)

PaliGemma 2 在前四个基准上以 896x896 分辨率进行了迁移,在其他基准上以 分辨率进行了迁移。

与 PaliGemma 2 的比较。我们按照 Steiner 等人 (2024) 的协议微调了多模态 Gemma 3 预训练检查点,仅学习率进行了调整,其余迁移设置相同。表 12 的结果显示,Gemma 3 在涉及文档理解的基准上表现出色,甚至超过了更大的 PaliGemma 2 变体。注意由于视觉编码器中的平均池化操作,Gemma 3 的 34B 和 12B 模型相比相同分辨率 896 x 896 下的 PaliGemma 2 的 9B 和 27B 模型迁移成本大约便宜 10 倍。Gemma 3 在 AI2D 和 OKVQA 上表现更好,但 PaliGemma 2 在 VQAv2 和 COCO caption 上表现略好。

多语言性。在表 13 中,我们报告了预训练模型在多语言任务上的表现。我们在上下文中应用多示例提示,并在以下基准上呈现结果:MGSM (Shi 等人, 2023), Global-MMLU-Lite (Singh 等人, 2024b), WMT24++ (Deutsch 等人, 2025), FLoRes (Goyal

表 13 | 预训练阶段后的多语言表现

IndicGenBench 是表 14 报告的基准的平均值。 et al., 2022), XQuAD (Artetxe et al., 2020), ECLeKTic (Goldman et al., 2025), IndicGenBench (Singh et al., 2024a), XOR QA (Asai et al., 2020)。评估细节描述在表 19 中。

表 14 | 预训练阶段后 IndicGenBench 的详细表现

长上下文。在表 15 中,我们报告了预训练和微调模型在长上下文基准上的表现。我们包括 RULER (Hsieh 等人, 2024) 和 MRCR (Vodrahalli 等人, 2024) 基准,分别在 32K 和 128K 序列长度下进行评估。

8.1. IT 模型的表现

我们在表 18 中报告了 IT 模型的附加基准。请注意,N2C 指的是 Natural2Code,Gemini 1.0 内部保留数据集,使用作者生成的来源而不是基于网络的信息。BBEH 指的是 BIG-Bench Extra Hard (Kazemi 等人, 2025),这是一个具有挑战性的 LLM 推理基准,聚合了多个推理任务(Fatemi 等人, 2024; Hessel 等人, 2022;Kazemi 等人, 2023, 2024b;Kıcıman 等人, 2023;Nie 等人, 2024;Sánchez 等人, 2024;Shah 等人, 2024;Tyen 等人, 2023;White 等人, 2024;Yamada 等人, 2023;Zhang 等人, 2024)。ECLeKTic 指的是 Goldman 等人 (2025)。我们报告的是微平均分数。更多评估细节描述在表 21 中。

8.2. IT 模型在视频理解上的表现

附加多模态评估。Gemma 3 IT 模型根据 Gemini 1.5 (Gemini 团队, 2024) 的评估协议在常见视觉基准上进行了评估。当激活 P&S 时,结果如表 16 所示。

4B12B27B
Perception Test MCVQA50.654.958.1
ActivityNet-QA46.350.452.8

表 17 | 使用 16 帧 linspace 进行零样本评估的指令微调 (IT) 模型在视觉理解基准上的表现。感知测试包括旨在展示感知有趣情境的真实世界视频,我们在多项选择视频 QA 基准上报告 top-1 准确率。ActivityNet-QA 报告标准 gpt 评估。

表 18 | 不同大小的指令微调 (IT) 模型在更多内部和外部基准上的表现。

表 19 | 文本基准的详细信息。字符长度标准化简称为 Char-Len,链式思维提示简称 COT。

评估指标类型n-shot
COCO CaptionCider 分数抽样4-shot
DocVQAANLS 分数抽样4-shot
InfographicVQAANLS 分数抽样4-shot
MMMU准确率抽样仅文本 3-shot
TextVQA准确率抽样4-shot
RealWorldQA准确率抽样仅文本 4-shot
ReMI准确率抽样4-shot
AI2D准确率抽样4-shot
ChartQA准确率抽样4-shot
VQA v2准确率抽样4-shot
BLINK准确率抽样0-shot
OK-VQA准确率抽样4-shot
TallyQA准确率抽样4-shot
SpatialSense VQA准确率抽样4-shot
CountBench VQA准确率抽样0-shot

表 20 | 视觉基准的详细信息。无链式思维提示或规范化。

评估指标类型n-shotCOT
MMLU准确率抽样0-shot
MBPPpass@1抽样3-shot
HumanEvalpass@1抽样0-shot
N2Cpass@1抽样0-shot
LiveCodeBench8 次抽样的平均值抽样0-shot
GSM8K准确率抽样0-shot
GPQA Diamond准确率抽样0-shot
MATH准确率抽样0-shot
HiddenMath准确率抽样0-shot
BBH准确率抽样0-shot
BBEH准确率抽样0-shot
IFEval准确率抽样0-shot
Global-MMLU-lite准确率抽样0-shot
ECLeKTicECLeKTic 得分抽样0-shot
WMT24++字符级 F 分数抽样0-shot

表 21 | 指令微调 (IT) 基准的详细信息。无规范化。

  1. ^
    共同第一作者。 Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini Jean Pouget-Abadie Jetha Chan Joe Stanton John Wieting Jonathan Lai Jordi Orbay Joseph Fernandez Josh Newlan Ju-yeong Ji Jyotinder Singh Kat Black Kathy Yu Kevin Hui Kiran Vodrahalli Klaus Greff Linhai Qiu Marcella Valentine Marina Coelho Marvin Ritter Matt Hoffman Matthew Watson Mayank Chaturvedi Michael Moynihan Min Ma Nabila Babar Natasha Noy Nathan Byrd Nick Roy Nikola Momchev Nilay Chauhan Noveen Sachdeva Oskar Bunyan Pankil Botarda Paul Caron Paul Kishan Rubenstein Phil Culliton Philipp Schmid Pier Giuseppe Sessa Pingmei Xu Piotr Stanczyk Pouya Tafti Rakesh Shivanna Renjie Wu Renke Pan
  2. ^
    共同第一作者。 Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini Jean Pouget-Abadie Jetha Chan Joe Stanton John Wieting Jonathan Lai Jordi Orbay Joseph Fernandez Josh Newlan Ju-yeong Ji Jyotinder Singh Kat Black Kathy Yu Kevin Hui Kiran Vodrahalli Klaus Greff Linhai Qiu Marcella Valentine Marina Coelho Marvin Ritter Matt Hoffman Matthew Watson Mayank Chaturvedi Michael Moynihan Min Ma Nabila Babar Natasha Noy Nathan Byrd Nick Roy Nikola Momchev Nilay Chauhan Noveen Sachdeva Oskar Bunyan Pankil Botarda Paul Caron Paul Kishan Rubenstein Phil Culliton Philipp Schmid Pier Giuseppe Sessa Pingmei Xu Piotr Stanczyk Pouya Tafti Rakesh Shivanna Renjie Wu Renke Pan
  3. ^
    共同第一作者。 Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini Jean Pouget-Abadie Jetha Chan Joe Stanton John Wieting Jonathan Lai Jordi Orbay Joseph Fernandez Josh Newlan Ju-yeong Ji Jyotinder Singh Kat Black Kathy Yu Kevin Hui Kiran Vodrahalli Klaus Greff Linhai Qiu Marcella Valentine Marina Coelho Marvin Ritter Matt Hoffman Matthew Watson Mayank Chaturvedi Michael Moynihan Min Ma Nabila Babar Natasha Noy Nathan Byrd Nick Roy Nikola Momchev Nilay Chauhan Noveen Sachdeva Oskar Bunyan Pankil Botarda Paul Caron Paul Kishan Rubenstein Phil Culliton Philipp Schmid Pier Giuseppe Sessa Pingmei Xu Piotr Stanczyk Pouya Tafti Rakesh Shivanna Renjie Wu Renke Pan
  4. ^
    共同第一作者。 Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini Jean Pouget-Abadie Jetha Chan Joe Stanton John Wieting Jonathan Lai Jordi Orbay Joseph Fernandez Josh Newlan Ju-yeong Ji Jyotinder Singh Kat Black Kathy Yu Kevin Hui Kiran Vodrahalli Klaus Greff Linhai Qiu Marcella Valentine Marina Coelho Marvin Ritter Matt Hoffman Matthew Watson Mayank Chaturvedi Michael Moynihan Min Ma Nabila Babar Natasha Noy Nathan Byrd Nick Roy Nikola Momchev Nilay Chauhan Noveen Sachdeva Oskar Bunyan Pankil Botarda Paul Caron Paul Kishan Rubenstein Phil Culliton Philipp Schmid Pier Giuseppe Sessa Pingmei Xu Piotr Stanczyk Pouya Tafti Rakesh Shivanna Renjie Wu Renke Pan
  5. ^
    共同第一作者。 Harshal Tushar Lehri Hussein Hazimeh Ian Ballantyne Idan Szpektor Ivan Nardini Jean Pouget-Abadie Jetha Chan Joe Stanton John Wieting Jonathan Lai Jordi Orbay Joseph Fernandez Josh Newlan Ju-yeong Ji Jyotinder Singh Kat Black Kathy Yu Kevin Hui Kiran Vodrahalli Klaus Greff Linhai Qiu Marcella Valentine Marina Coelho Marvin Ritter Matt Hoffman Matthew Watson Mayank Chaturvedi Michael Moynihan Min Ma Nabila Babar Natasha Noy Nathan Byrd Nick Roy Nikola Momchev Nilay Chauhan Noveen Sachdeva Oskar Bunyan Pankil Botarda Paul Caron Paul Kishan Rubenstein Phil Culliton Philipp Schmid Pier Giuseppe Sessa Pingmei Xu Piotr Stanczyk Pouya Tafti Rakesh Shivanna Renjie Wu Renke Pan

原论文:https://arxiv.org/pdf/2503.19786

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值