1. 模型概述
Gemma 3 是谷歌最新推出的开源多模态大模型,旨在为开发者提供高性能、低成本的 AI 解决方案。作为 Gemma 系列的第三代产品,Gemma 3 在多模态能力、语言支持以及模型效率方面实现了显著突破,成为全球顶尖开源模型之一。
2. 模型架构
Gemma 3 采用了解码器 Transformer 结构,并进行了创新和优化以应对长上下文带来的内存爆炸难题。其主要架构特点包括:
-
分组查询注意力(GQA):提高了模型的并行计算效率。
-
后归一化和前归一化:结合 RMSNorm 提高模型的稳定性和收敛速度。
-
局部和全局自注意力层交替排列:每 5 层局部层后接 1 层全局层,模型的第一层为局部层,以更好地处理长上下文。
3. 功能与特点
-
多参数规模:Gemma 3 提供 10 亿、40 亿、120 亿和 270 亿四种参数规模的模型,开发者可以根据硬件条件和性能需求灵活选择。
-
多模态能力:支持文本和图像输入,能够处理图像描述生成、视频内容分析、跨模态问答等任务。集成了定制版的 SigLIP 视觉编码器,通过 CLIP 损失的变体进行训练,提高了模型对图像内容的理解能力。
-
长上下文支持:支持最长 128K 个 token 的上下文窗口(10 亿参数模型为 32K),在全局自注意力层上提高了 RoPE 基础频率,并采用了位置插值方法扩展全局自注意力层的跨度。
-
多语言支持:支持超过 140 种语言,其中 35 种语言开箱即用,大大降低了多语言开发的门槛。
-
高效推理:即使最大的 270 亿参数模型,也只需要一张 H100 GPU 即可高效推理。
-
函数调用与结构化输出:支持函数调用和结构化输出,帮助开发者实现任务自动化并构建智能体验。
-
量化模型:推出了官方量化版本,在保持高精度的同时减少模型大小和计算需求。
4 Gemma 3 核心技术
Gemma 3 是谷歌推出的一款先进的开源人工智能模型,它在之前版本的基础上进行了多项技术改进,主要集中在三个方面:更长的上下文长度、多模态处理能力和多语言支持。以下是关于“更长的上下文长度”方面的详细解释:
4.1 更长的上下文长度
-
无需从头重新训练即可扩展:
-
初始预训练
-