一键部署谷歌最新开源多模态AI模型 Gemma 3：单GPU性能碾压Llama！支持35+种语言

本文链接：https://blog.csdn.net/qq_19841021/article/details/146245325

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎉 “谷歌放大招！Gemma 3 开源多模态 AI 模型来了：35+语言支持，高分辨率图像处理，单 GPU 也能起飞！”

大家好，我是蚝油菜花。你是否也遇到过——

👉 多模态任务处理复杂，模型难以兼顾文本、图像和视频？
👉 高分辨率图像处理速度慢，硬件资源消耗大？
👉 多语言支持不足，难以满足全球化需求？

今天要介绍的 Gemma 3，是谷歌最新推出的开源多模态 AI 模型，专为开发者设计，支持超过 35 种语言，具备文本、图像及短视频处理能力。它提供四种不同尺寸的模型（1B、4B、12B 和 27B），优化单 GPU 性能，显著提升推理速度。无论是图像问答、视频内容分析，还是多语言智能助手，Gemma 3 都能轻松应对。接下来，我们将深入解析它的核心功能和技术原理，带你全面了解这款 AI 神器！

🚀 快速阅读

Gemma 3 是谷歌最新推出的开源多模态 AI 模型，专为开发者设计。

核心功能：支持文本、图像及短视频处理，提供四种模型尺寸，优化单 GPU 性能。
技术原理：采用知识蒸馏、强化学习和模型合并技术，配备 ShieldGemma 2 图像安全分类器。

Gemma 3 是什么

gemma-3-comparison-chart-gemma-models

Gemma 3 是谷歌最新推出的开源人工智能模型，专为开发者设计，支持多种设备上的人工智能应用开发。它支持超过 35 种语言，具备分析文本、图像及短视频的能力，提供四种不同尺寸的模型（1B、4B、12B 和 27B），满足不同硬件和性能需求。

gemma-3-model-performance-v-size-gemma-3.original

Gemma 3 在单 GPU 或 TPU 上的性能优于其他同类模型，如 Llama、DeepSeek 和 OpenAI 的 o3-mini。它配备了 ShieldGemma 2 图像安全分类器，可检测和标记危险内容。开发者可以通过 Google AI Studio 快速体验，或从 Hugging Face、Kaggle 等平台下载模型进行微调和部署。

Gemma 3 的主要功能

多模态处理能力：支持文本、图像及短视频的混合输入，能够处理复杂的多模态任务，如图像问答、视频内容分析等。
高分辨率图像支持：引入动态图像切片技术和帧采样与光流分析结合方案，支持高分辨率和非方形图像，能在 20 秒内完成 1 小时视频的关键帧提取。
多语言支持：支持超过 140 种语言的预训练，直接支持超过 35 种语言。
单 GPU 优化：被称为“全球最强的单加速器模型”，在单 GPU 或 TPU 环境下表现显著优于其他同类模型。
推理速度提升：在处理短视频内容时，推理速度提升了 47%。
硬件适配：针对 Nvidia GPU 和 Google Cloud TPU 进行了深度优化，确保在不同硬件平台上的高效运行。
多种模型大小：提供 1B、4B、12B 和 27B 四种不同尺寸的模型，满足不同硬件和性能需求。
开发工具支持：支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等多种开发工具和框架。
部署选项多样：支持 Google AI Studio、Vertex AI、Cloud Run、本地环境等多种部署选项。

Gemma 3 的技术原理

图像安全分类器：配备 ShieldGemma 2 图像安全分类器，能检测和标记危险内容、色情内容和暴力内容，进一步提升了模型的安全性。
训练与微调：采用知识蒸馏、强化学习（包括人类反馈和机器反馈）以及模型合并等技术，提升了模型在数学、编码和指令跟随方面的能力。提供了更灵活的微调工具，方便开发者根据需求进行定制。

如何运行 Gemma 3

通过镜像一键部署

在这里特别感谢 UCloud 优云智算提供的 GPU 算力支持！让项目得到了快速的部署和调试运行。

UCloud 介绍

UCloud

优云智算是 UCloud 优刻得的GPU算力租赁平台，专注于为用户提供灵活的算力资源。支持按天、按小时短期租赁及包月长期租赁，满足各类需求。

结合丰富的公共镜像社区，优云智算提供多种预配置的容器镜像，如LLamaFactory、SD-webUI 和 LLM 等，实现一键部署，5分钟就能快速上手 AI，助力用户快速启动和扩展项目。

1. 使用该镜像创建实例

Gemma 3 镜像优化：

镜像预先下载了 Gemma 3 尺寸为 1B、4B、12B 和 27B 的大模型，无需重复下载模型，加载模型快人一步！
基于 Ollama 可以快速部署 Gemma 3 不同尺寸的大模型，并安装了 Open-WebUI 以快速实现可视化聊天。
在bashrc中已设置export AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=5，设置 Open-WebUI 在连接不上 API 只需要暂停加载 5 秒，默认是暂停 5 分钟。

Gemma 3全系列模型+Open-WebUI - 镜像发布页（神秘通道）：https://www.compshare.cn/images-detail?ImageID=compshareImage-19gqcfwnxjde&referral_code=4sOb83sEXe4BLkKYqw9G4P&ytag=GPU_hych_Lcsdn_csdn_display

【算力福利速递】神秘通道秒领40枚算力金币解锁20小时顶配4090显卡试驾体验！学生党/职场人亮出大佬身份，立享永久VIP+额外金币补给包，快乐白嫖手慢无~

首先，在镜像发布页可以查看到我制作完成并分享到平台的实例镜像，通过右侧的使用该镜像创建实例可以快速创建一个实例。

UCloud_use_mirror

2. 部署GPU实例

可按需选择配置后再立即部署。

UCloud_mirror_ini

3. 启动实例

稍等片刻后，实例就会自动创建并启动，通过查看实例列表可查看实例的运行状态，并支持随时关闭或启用。

UCloud_contorl

实例同时提供了一个 JupyterLab 应用作为交互式开发环境，它提供了更现代化和灵活的用户界面，方便我们继续后续的步骤。

UCloud_JupyterLab

快速开始！

1. 启动 Ollama 服务和 Open-WebUI 服务

首先，新建一个终端，运行以下命令启动 Ollama 服务：

ollama serve

如图所示，成功启动 Ollama 后服务默认运行在 11434 端口：

Gemma_3-ollama

注意不要关闭前一个终端窗口。下一步，另外新建一个终端，运行以下命令启动 Open-WebUI 服务：

open-webui serve

Open-WebUI 服务默认运行在 8080 端口，当出现以下输出信息时说明服务已经成功启动：

Gemma_3-open-webui

2. 打开可视化页面

成功启动 Ollama 服务和 Open-WebUI 服务后，通过本地浏览器访问实例外网ip:8080，打开可视化页面并登录用户：

Gemma_3-open-webui-login

登录 Open-WebUI 默认的管理员邮箱是 root@root.com，密码是 root。

3. 选择模型

默认使用gemma3:12b模型，可以在页面的左上角切换其他尺寸的 Gemma 3 模型：

Gemma_3-open-webui-models

4. 开始对话

在对话框在输入问题后点击发送消息按钮即可跟模型开始对话，模型的回复结果也会在对话历史记录中以流式输出进行展示：

Gemma_3-open-webui-chat

因为模型初始化需要经过模型加载阶段、GPU 初始化与显存分配、模型参数初始化、并行化配置、服务端预热等过程，所以首次延迟是本地部署大模型的典型现象，后续推理速度会显著提升！

运行官方的代码示例

在/model/HuggingFace/google下有gemma-3所有的开源模型。其中，pt结尾是预训练基座模型，it结尾的是指令微调版本，建议使用it结尾的模型来运行官方的代码示例：

python demo.py --model_id /model/HuggingFace/google/gemma-3-4b-it

运行这个代码示例试试让 Gemma-3-4b 模型描述以下图片中的细节：

Gemma_3-open-webui-demo-bee

输出结果如下：

Gemma_3-open-webui-demo-bee-output

资源

项目讯息：https://developers.googleblog.com/en/introducing-gemma3/
HuggingFace 仓库：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦