轻量级多模态多语言Gemma 3模型：为性能而优化

本文链接：https://blog.csdn.net/kunhe0512/article/details/146981055

轻量级多模态多语言Gemma 3模型：为性能而优化

在构建基于基础模型的AI系统时，开发者需要在内存、延迟、存储、计算等资源之间取得微妙的平衡。对于管理成本和用户体验的开发者来说，没有一种通用的解决方案适合所有情况，尤其是在将生成式AI能力引入快速增长的AI驱动应用生态系统时。

开发者需要高质量、可定制的模型选项，这些模型能够支持在不同计算环境中部署和托管的大规模服务，从数据中心到边缘计算再到设备端应用场景。

Google DeepMind刚刚宣布推出Gemma 3，这是一系列新的多模态和多语言开源模型。Gemma 3包括一个1B纯文本小型语言模型（SLM）和三种规模为4B、12B和27B的图像-文本模型。您可以从HuggingFace获取这些模型，也可以在NVIDIA API目录中体验1B模型。

Gemma 3 1B模型经过优化，可以在设备应用或需要低内存使用的环境中高效运行，支持最多32K tokens的输入。Gemma 3 4B、12B和27B模型则接受文本、图像和多图像输入，支持最多128K tokens。

使用优化的Gemma 3模型进行实验和原型设计

您可以在NVIDIA API目录中探索这个模型，在那里您可以使用自己的数据进行实验，并配置最大tokens数和温度、top P等采样值参数。

预览还会生成您在Python、NodeJS和Bash中需要的代码，以便将模型集成到您的程序或工作流中。如果您使用LangChain构建代理、连接外部数据或链接操作，您可以使用NVIDIA LangChain库生成的可重用客户端。

在这里插入图片描述

图1. Gemma 3模型演示

要在您自己的环境中开始使用，请按照以下步骤操作：

在NVIDIA API目录创建一个免费账户
导航到Gemma 3模型卡片
选择"Build with this NIM"并"Generate API Key"
将生成的密钥保存为NVIDIA_API_KEY

面向下一代机器人和边缘解决方案的高级AI

每个Gemma 3模型都可以部署到NVIDIA Jetson系列嵌入式计算板上，这些计算板用于机器人和边缘AI应用。较小的变体，如1B和4B，可以在像Jetson Nano这样小的设备上使用。而为高需求应用构建的27B模型可以在Jetson AGX Orin上提供服务，该设备支持高达275 TOPS的算力。有关更多信息，请参阅最新的Jetson Orin Nano开发者套件公告。