Gemma 3 技术报告
1. 引言
我们在此介绍 Gemma 开放语言模型系列的最新版本——Gemma 3(2024a)。该版本与 Gemini 系列前沿模型(Gemini 团队,2023)共同设计,涵盖从 1 亿到 270 亿参数的不同规模版本。与 Gemma 2(2024b)相比,新版本增加了 10 亿参数的模型,旨在在标准消费级硬件(如手机、笔记本电脑和高端 GPU)上运行。
Gemma 3 为 Gemma 系列带来了以下新功能:
-
多模态能力:大多数 Gemma 3 模型与定制的 SigLIP 视觉编码器(Zhai 等人,2023)兼容。语言模型将图像视为由 SigLIP 编码的软标记序列。我们通过将视觉嵌入压缩为固定大小的 256 个向量来降低图像处理的推理成本。编码器以固定分辨率工作,我们借鉴了 LLaVA(Liu 等人,2024)的灵感,采用平移和扫描(P&S)方法实现灵活的分辨率。
-
长上下文:上下文长度增加到 128K 个标记,同时保持性能不变。长上下文的一个挑战是推理过程中 KV 缓存的内存爆炸问题。为了减少这个问题,我们在每层全局自注意力层之间交错多个局部层,并将局部层的跨度限制为仅 1024 个标记。因此,只有全局层关注长上下文,我们每 5 层局部层对应 1 层全局层。
-
多语言能力:我们改进了数据混合策略,以增强模型的多语言能力,同时引入了图像理解能力。所有 Gemma 3 模型都使用知识蒸馏(Hinton 等人,2015)进行训练。
在训练后阶段,我们专注于提高数学、推理和聊天能力,并整合 Gemma 3 的新功能——长上下文和图像输入。我们采用了一种新颖的训练后方法,在所有能力方面都带来了提升,包括数学、编码、聊天、指令遵循和多语言能力。由此产生的 Gemma 3 指令微调模型功能强大且用途广泛,在各项基准测试中均大幅超越其前身。
在以下章节中,我们将简要概述我们的模型,包括架构以及预训练和训练后方法。我们还将在各种定量和定性基准测试中提供详细的评估。我们将讨论安全负责部署的方法,并概述 Gemma 3 的更广泛影响、局限性和优势。
2. 模型架构
Gemma 3 模型遵循与前几代模型相同的通用解码器专用 Transformer 架构(Vaswani 等人,2017),大多数架构元素与前两个 Gemma 版本相似。我们使用分组查询注意力(GQA)(Ainslie 等人,2023),并结合后归一化和预归一化的 RMSNorm(Zhang 和 Sennrich,2019)。受 Dehghani 等人(2023)、Wortsman 等人(2023)和 Chameleon 团队(2024)的启发,我们用 QK 归一化取代了 Gemma 2 的软帽归一化。在本节中,我们将重点介绍与前几代模型的一些关键区别。
5:1 局部/全局层交错
我们交替使用局部滑动窗口自注意力(Beltagy 等人,2020)和全局自注意力(Luong 等人,2015),模式为每层全局层对应 5 层局部层,从模型的第 1 层开始为局部层。
长上下文
Gemma 3 模型支持 128K 个标记的上下文长度,但 1B 模型除外,其上下文长度为 32K。我们将全局自注意力层的 RoPE 基频从 10k 提高到 1M,同时保持局部层的频率为 10k。我们遵循 Chen 等人(2023)的位置插值过程来扩展全局自注意力层的跨度。
2.1 视觉模态
视觉编码器
我们使用 SigLIP 编码器(Zhai 等人,2023)的 400M 变体,这是一种在 CLIP 损失(Radford 等人,2021)的变体上训练的视觉 Transformer(Gemma 视觉编码器将输入的正方形图像调整为 896x896,并在视觉助手任务的数据上进行微调。为了简化,我们在 4B、12B 和 27B 模型之间共享视觉编码器,并在训练期间保持其冻结状态。
平移和扫描 (P&S)
Gemma 视觉编码器以 896x896 的固定分辨率运行。当处理非正方形长宽比和高分辨率图像时,这会导致伪影,导致文本不可读或小物体消失。我们通过推理时的自适应窗口算法解决了这个问题。该算法将图像分割成大小相等的非重叠裁剪块,覆盖整个图像,并将其调整为 896x896 像素传递给编码器。这种窗口化仅在必要时应用,并控制最大裁剪数量。这是一种仅在推理时进行的优化,可以禁用以加快推理速度。
2.2 预训练
我们遵循与 Gemma 2 类似的配方进行知识蒸馏预训练。
训练数据
我们用于预训练的数据集比 Gemma 2 略大,即 Gemma 3 27B 模型训练了 14 万亿个标记,12B 版本训练了 12 万亿个标记,4B 版本训练了 4 万亿个标记,1B 版本训练了 2 万亿个标记。标记数量的增加是为了适应预训练中使用的图像和文本的混合。我们还增加了多语言数据的数量,以提高语言覆盖范围。我们同时添加了单语和并行数据,并使用受 Chung 等人(2023)启发的策略来处理语言表示的不平衡。
分词器
我们使用与 Gemini 2.0 相同的分词器:一个带有分割数字、保留空格和字节级编码的 SentencePiece 分词器(Kudo 和 Richardson,2018)。生成的词汇表包含 262k 个条目。这个分词器对于非英语语言更加平衡。
过滤
我们使用过滤技术来减少产生不需要或有害的言语的风险,并删除某些个人信息和其它敏感数据。我们对预训练数据混合中的评估集进行去污染,并通过最小化敏感输出的扩散来降低背诵的风险。我们还应用了受 Sachdeva 等人(2024)启发的质量重新加权步骤,以减少低质量数据的出现。
知识蒸馏
我们以教师概率为权重,对每个标记采样 256 个 logits。学生通过交叉熵损失学习教师在这些样本中的分布。教师的目标分布对于未采样的 logits 设置为零概率,并重新归一化。
2.3 量化感知训练
除了原始检查点外,我们还提供不同标准格式的模型量化版本。这些版本是通过对每个模型进行少量步骤(通常为 5000 步)的微调,使用量化感知训练(QAT)(Jacob 等人,2018)获得的。我们使用未量化检查点的概率作为目标,并调整数据以匹配预训练和训练后的分布。基于最流行的开源量化推理引擎(例如 llama.cpp),我们专注于三种权重表示:每通道 int4、每块 int4 和切换 fp8。在表 3 中,我们报告了原始模型和量化模型在序列长度为 32k 个标记的情况下,带有和不带有 KV 缓存的内存占用情况。
2.4 计算基础设施
我们使用 TPUv4、TPUv5e 和 TPUv5p 训练我们的模型,如表 2 所示。每个模型配置都经过优化,以最小化训练步骤时间。对于视觉编码器,我们预先计算每个图像的嵌入,并直接使用嵌入进行训练,不会增加语言模型训练的成本。
优化器状态使用 ZeRO-3(Ren 等人,2021)的实现进行分片。对于多 pod 训练,我们使用 Barham 等人(2022)的 Pathways 方法进行数据中心网络上的数据副本复制。我们使用 Jax(Roberts 等人,2023)和 Pathways(Barham 等人,2022)的“单控制器”编程范例,以及 GSPMD 分区器(Xu 等人,2021)和 MegaScale XLA 编译器(XLA,2019)。
3. 指令微调
预训练模型通过改进的训练后方法转变为指令微调模型(见表 6)。
技术
我们的训练后方法依赖于改进版的知识蒸馏(Agarwal 等人,2024;Anil 等人,2018;Hinton 等人,2015),来自大型 IT 教师,以及基于改进版的 BOND(Sessa 等人,2024)、WARM(Ram 等人,2024b)和 WARP(Ram 等人,2024a)的强化学习微调阶段。
强化学习目标
我们使用各种奖励函数来提高有用性、数学、编码、推理、指令遵循和多语言能力,同时最大限度地减少模型的有害性。这包括从使用人类反馈数据训练的权重聚合奖励模型(Ram 等人,2024b)、代码执行反馈(Gehring 等人,2024)以及解决数学问题的真实奖励(DeepSeek-AI,2025;Lambert 等人,2024)中进行学习。
数据过滤
我们仔细优化训练后使用的数据,以最大限度地提高模型性能。我们过滤掉显示某些个人信息、不安全或有毒的模型输出、错误的自我识别数据和重复示例的示例。包括鼓励更好的上下文归因、缓和和拒绝的数据子集,以最大限度地减少幻觉,也提高了事实性指标上的性能,而不会降低模型在其他指标上的性能。
4. 最终模型评估
在本节中,我们将在一系列自动化基准测试和跨多个领域的人类评估以及静态基准测试(例如 MMLU)上评估 IT 模型。
4.1 LMSYS Chatbot Arena
在本节中,我们报告了我们的 IT 27B 模型在 LMSys Chatbot Arena(Chiang 等人,2024)上的表现,在与其它最先进模型进行盲目并排评估时,由人类评估者进行评分。我们报告了 Elo 分数(见表 5)。
Gemma 3 27B IT(1338 分)位列前 10 名最佳模型,其得分高于其它非思维开放模型,例如 DeepSeek-V3(1318 分)、LLaMA 3 405B(1257 分)和 Qwen2.5-70B(1257 分),这些模型都是更大的模型。最后,Gemma 3 的 Elo 得分明显高于 Gemma 2,为 1220 分。请注意,Elo 分数没有考虑视觉能力,而上述模型都没有视觉能力。
4.2 标准基准测试
在表 6 中,我们展示了我们的最终模型与前几代模型和 Gemini 1.5 在各种基准测试中的表现。我们没有直接与经常报告自己评估设置的外部模型进行比较,因为在我们的设置中运行它们并不能保证公平的比较。我们鼓励读者关注第三方静态排行榜,以获得更公平的跨模型比较。我们在附录中包括了我们的模型在其他基准测试上的额外评估。
5. 消融实验
在本节中,我们将重点讨论架构变化的影响,以及该模型新增的一些视觉能力。
5.1 预训练能力探测
我们在预训练期间使用几个标准基准测试作为探测工具,以确保我们的模型能够捕获一般能力。在图 2 中,我们将 Gemma 2 和 3 的预训练模型在这些一般能力(即科学、代码、事实性、多语言能力、推理和视觉)方面的质量进行了比较。这些图表旨在提供简化的总结,详细信息见附录。总的来说,我们看到新版本在大多数类别中都有所改进,尽管增加了视觉。我们特别关注本版本的多语言能力,这直接影响了我们模型的质量。然而,尽管使用了去污染技术,这些探测总是存在污染的风险(Mirzadeh 等人,2024),这使得更难得出更明确的结论。
5.2 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理过程中性能和内存消耗的影响。
局部:全局比率
在图 3 中,我们比较了局部到全局注意力层的不同比率。Gemma 2 模型使用 1:1,Gemma 3 使用 5:1。我们观察到改变这个比率对困惑度的影响很小。
图 3 | 局部:全局比率对验证集上困惑度的影响。即使是 7 比 1 的局部到全局,影响也很小。这个消融实验是用纯文本模型运行的。
滑动窗口大小
在图 4 中,我们比较了不同滑动窗口大小对不同全局:局部比率配置中局部注意力层的影响。滑动窗口可以显著减小,而不会影响困惑度。
图 4 | 滑动窗口大小对验证集上困惑度的影响。我们考虑了两个 2B 模型,具有 1:1 和 1:3 的局部到全局层比率。这个消融实验是用纯文本模型运行的。
对 KV 缓存内存的影响
在图 5 中,我们展示了模型使用的内存与推理过程中 KV 缓存之间的平衡,上下文为 32k 个标记。“仅全局”配置是大多数密集模型使用的标准配置。“1:1, sw=4096”用于 Gemma 2。我们观察到,“仅全局”配置会导致 60% 的内存开销,而使用 1:3 和滑动窗口为 1024 ( sw=1024 ) 时,内存开销降至不到 15%。在图 6 中,我们计算了 KV 缓存使用的内存作为上下文长度的函数,使用我们的 2B 架构 ( L:G=5:1, sw=1024 ) 与仅全局 2B 模型。
图 5 | 模型与 KV 缓存内存的对比,推理时预填充 KV 缓存大小为 32k。我们考虑一个 2B 模型,具有不同的局部到全局比率和滑动窗口大小 (sw)。我们将其与仅全局进行比较,这是 Gemma 1 和 Llama 中使用的标准。这个消融实验是用纯文本模型运行的。
图 6 | KV 缓存内存与上下文长度的对比。我们展示了 KV 缓存的内存使用情况,我们的架构 L·G=5:1, sw=1024 ) 和仅全局注意力 transformer——如 LLaMa 或 Gemma 1 中使用的。
5.3 启用长上下文
我们不是从头开始训练 128K 个序列,而是在预训练结束时将 4B、12B 和 27B 模型预训练到 32K 个序列,然后在预训练结束时将 RoPE 重新缩放(Chen 等人,2023),将模型扩展到 128K 个标记。我们发现 8 的缩放因子在实践中效果很好。请注意,与 Gemma 2 相比,我们还将全局自注意力层的 RoPE 基频从 10k 提高到 1M,同时保持局部自注意力层的 10k。在图 7 中,我们展示了不同上下文长度对困惑度的影响。我们的模型可以推广到 128K,但随着我们继续扩展,困惑度会迅速下降。
图 7 | 预训练模型在 RoPE 重新缩放前后的长上下文性能。
5.4 小型与大型教师
一个常见的发现是,为了训练一个小模型,最好从一个小教师那里进行蒸馏。我们怀疑这是因为这些研究通常是在使用较差教师的正则化效果超过使用更好教师的好处的情况下进行的。我们训练了一个学生,有两个不同大小的教师,一个大一个小,不同的训练期限。在图 8 中,我们观察到,对于短训练期限,小教师更好,但趋势在更长训练期限时逆转。
图 8 | 小型与大型教师。使用小型和大型教师时困惑度的相对差异作为训练标记大小的函数。较小的数字意味着从更大的教师那里进行蒸馏更好。
5.5 视觉编码器
表 7 | 图像编码器输入分辨率的影响。我们使用一个短调度 2B Gemma 模型在几个评估基准测试上测量性能,以观察输入图像分辨率对视觉编码器预训练的影响。
图像分辨率的影响
我们使用基于 SigLIP(Zhai 等人,2023)的视觉编码器。视觉编码器被冻结,只有语言模型接受训练。这个多模态数据中的每个图像都由来自相应视觉编码器的 256 个图像标记表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到 256 个标记。例如,896 分辨率编码器在其输出上有 4x4 平均池化。如表 7 所示,更高分辨率的编码器比小分辨率的编码器表现更好。
P&S 的影响
P&S 使得图像能够以接近其本机长宽比和图像分辨率进行捕捉。在表 8 中,我们将我们的 27B IT 模型与 P&S 的使用和不使用进行了比较。正如预期的那样,能够以接近本机分辨率处理图像的能力对于需要某种形式阅读图像上文本的任务有很大帮助,这对于视觉语言模型来说尤为重要。
表 8 | P&S 的影响。在验证集上进行 4-shot 评估结果,对预训练检查点进行和不进行 P&S。提升是在与图像具有不同长宽比或涉及阅读图像上文本的任务相关的任务上。
6. 记忆和隐私
大型语言模型可能会产生训练中使用的某些文本的近似副本(Biderman 等人,2023;Carlini 等人,2021,2022;Ippolito 等人,2022;Nasr 等人,2023)。一些先前的报告已经发布了审计,通过测量记忆率来量化这种风险(Anil 等人,2023;Chowdhery 等人,2022;Gemini 团队,2023,2024;Gemma 团队,2024a,b;LLaMa 团队,2024)。这个“记忆率”1 定义为模型生成与训练数据匹配的生成与所有模型生成之间的比率,使用以下设置。我们遵循 Gemma 团队(2024b)中描述的方法来衡量它。具体来说,我们从训练数据中均匀分布的各大语料库中抽取一大块数据,并使用长度为 50 的前缀和长度为 50 的后缀测试对此内容的可发现提取(Nasr 等人,2023)。如果延续中的所有标记与源后缀完全匹配,则将文本标记为“完全记忆”,如果它们匹配到 10% 的编辑距离,则标记为“近似记忆”。
图 9 比较了 Gemma 和 Gemini 模型的记忆率;这些模型按逆时间顺序排列,最新的 Gemma 3 模型位于左侧。我们发现,Gemma 3 模型对长篇文本的记忆率远低于以前的模型(注意对数 y 轴)。我们观察到 4B、12B 和 27B 模型之间的记忆率只有微小的差异,而 1B 模型比这些大模型记忆得更少。此外,我们发现更大比例的文本被表征为近似记忆,与完全记忆相比,近似记忆的相对增加约为 24 倍。
我们还研究了生成中可能包含个人信息的比率。为了识别潜在的个人信息,我们使用谷歌云敏感数据保护(SDP)服务。2 SDP 使用广泛的检测规则来识别可能包含个人信息的文本。SDP 旨在具有高召回率,不考虑信息出现的上下文,这导致了许多误报。因此,我们可能高估了被分类为记忆的输出中包含的真正潜在个人信息的数量。SDP 还提供广泛的严重性级别:低、中和高。如果 SDP 将文本分类为任何严重级别的个人信息,我们将其分类为个人。我们观察到所有 Gemma 3 模型的记忆输出中没有个人信息。这表明在分类为记忆的输出中,个人数据的比率低于我们的检测阈值。
7. 责任、安全、保障
责任、安全和保障在 Gemma 模型开发中至关重要。为了减少对 Gemma 3 用户的影响,我们继续整合增强的内部安全流程,这些流程贯穿于开发工作流程,与最近的谷歌 AI 模型(Gemini 团队,2024)保持一致。这侧重于训练时的安全缓解,以及针对我们引入的新图像到文本能力的强大而透明的模型评估。
7.1 治理与评估
我们评估 Gemma 的收益和风险的方法反映了 Gemma 1(Gemma 团队,2024a)中概述的内容,同时考虑了支持模式的变化。我们继续相信,开放 AI 可以将这项技术的收益传播到整个社会,但也必须根据可能造成的恶意使用的风险进行评估,这会对个人和机构层面造成伤害(Weidinger 等人,2021)。自 Gemma 首次发布以来,我们已经看到这些模型推动了多项社会效益的应用,例如我们自己的 ShieldGemma 2,一个使用 Gemma 3 构建的 4B 图像安全分类器,它提供了一个现成的图像安全解决方案,在危险内容、性暴露和暴力类别中输出安全标签。
发布 Gemma 3 模型需要对模型能力的变化给予特别关注,并密切监控现有多模态 LLM(Lin 等人,2024)的不断演变的风险,以及了解模型在现实世界中的使用方式。尽管我们尚未收到任何关于 Gemma 的恶意使用报告,但我们仍然致力于调查任何此类报告,并与学术界和开发者社区合作,以及进行我们自己的监控,以标记此类案例。
尽管能力有所提高,我们认为,鉴于有许多功能更强大的开放模型可用,这次发布对整体风险格局的影响可以忽略不计。
7.2 安全政策和训练时缓解措施
Gemma 安全方法的一个关键支柱是与谷歌的安全政策保持一致,与 Gemini 模型(Gemini 团队,2023)保持一致。它们旨在帮助防止我们的模型生成有害内容,即:
- 儿童性虐待和剥削
- 泄露可能导致伤害的个人身份信息(例如,社会安全号码)
- 仇恨言论和骚扰
- 危险或恶意内容(包括提倡自我伤害或指导有害活动)
- 性暴露内容
- 与科学或医学共识相悖的医疗建议
我们进行了大量的安全过滤预训练数据,以减少预训练和微调检查点产生有害内容的可能性。对于微调模型,我们还使用 SFT 和 RLHF 来引导模型远离不良行为。
7.3 保障评估
我们还运行我们的 IT 模型通过一组基线保障评估,以了解我们的模型可能造成的潜在危害。由于我们倡导开放模型,我们也认识到权重发布的不可逆性需要严格的风险评估。我们的内部安全流程相应地设计,对于以前的 Gemma 模型,我们还进行了与极端风险相关的评估能力(Phuong 等人,2024;Shevlane 等人,2023)。随着我们继续开发和共享开放模型,我们将遵循这样的启发式方法,即彻底评估一个能力更强的模型通常为能力较弱的模型提供足够的保障。因此,我们优先考虑对 Gemma 3 进行一套精简的评估,为特定模型可能存在潜在更高风险的情况保留深入的危险的评估能力(如 CBRN 评估)。我们在平衡开发速度与针对性的安全测试的同时,确保我们的评估重点突出且高效,同时坚持我们在《前沿安全框架》中提出的承诺。
基线评估
基线保障捕获了模型违反安全政策的比率,使用大量合成的对抗性用户查询,并使用人类评估者将答案标记为是否违反政策。总体而言,Gemma 3 在这些安全政策上的违规率非常低。
化学、生物、辐射和核 (CBRN) 知识
由于在 STEM 相关任务上的性能增强,我们使用内部数据集对生物、辐射和核风险相关的知识进行了评估。对于化学知识评估,我们采用了一种封闭式的基于知识的化学危害评估方法,该方法由 Macknight 等人开发。我们的评估表明,Gemma 3 模型在这些领域的知识较低。
7.4 我们负责任开放模型的方法
设计安全、可靠和负责任的应用需要系统级的方法,努力减轻与每个特定用例和环境相关的风险。我们将继续采用与模型潜在风险相称的评估和安全缓解措施,并且只有当我们确信收益明显超过可预见的风险时,才会与社区共享这些。
8. 讨论与结论
在这项工作中,我们介绍了 Gemma 3,这是文本、图像和代码开放语言模型家族的最新成员。在这个版本中,我们专注于添加图像理解能力和长上下文,同时提高多语言能力和 STEM 相关能力。我们的模型规模和架构旨在与标准硬件兼容,我们的大多数架构改进都是为了适应这种硬件,同时保持性能。