谷歌全新多模态大模型Gemma 3，使用Ollama本地运行Gemma-3-4B并解释图片

最新推荐文章于 2025-04-14 16:41:47 发布

AI科技论谈

最新推荐文章于 2025-04-14 16:41:47 发布

阅读量1.6k

点赞数 13

分类专栏：大语言模型文章标签：语言模型图像处理深度学习机器学习

本文链接：https://blog.csdn.net/ai_tech_talk/article/details/146394196

版权

8 篇文章

订阅专栏

Gemma 3 新模型上线，本地实操教程新鲜出炉！

微信搜索关注《AI科技论谈》

上周三（3月12日），大语言模型界迎来重磅消息 ——Gemma 3 正式发布！迅速成为 AI 爱好者们热议的焦点。

Gemma 3 共有 4 种参数规模版本，10 亿参数（1B）、40 亿参数（4B）、120 亿参数（12B）和 270 亿参数（27B），涵盖预训练和指令微调版。

其中，4B、12B、27B 版本支持多模态，上下文窗口最大 128K；1B 版本小巧快速且功能强。各版本在 Kaggle、HuggingFace 均可下载。

今天重点教大家如何在本地电脑上快速开启 Gemma 3 模型，让你第一时间体验这款新模型的魅力，赶紧来试试！

首先，安装Ollama，安装过程非常简单。

访问Ollama（https://ollama.com/download）页面，选择你的操作系统平台（可在MacOS、Linux和Windows之间选择）。按照安装说明进行操作，然后你就可以在控制台中启动Ollama了。

在控制台中，运行：

ollama run gemma3

当你首次使用某个模型时，Ollama会下载在本地运行该模型所需的资源。

首次使用ollama运行gemma3

为了确保加载的模型正确，这里第一个问题是关于所加载的模型。默认情况下，下载的是40亿参数的模型。

接下来，让我们查看一张超酷的图片。从Vecteezy网站上下载了一张猫咪图片：

三只戴着眼镜的酷猫

要向Gemma3:4B模型发起查询，需在Ollama shell控制台中运行以下查询：

>>> What you see in this picture: /Users/gabrielpreda/Desktop/three-cool-cats-in-sunglasses-illustration-ai-generative-free-photo.jpg ?

先输入查询内容，然后将图片拖到控制台。除了查询内容，你还提供了图片的路径；模型会加载并处理该图片。完成这些操作后，会生成一个提示，确认图片已成功加载，然后针对多模态输入（文本查询和图片）生成答案。

下图展示了查询内容、上传确认提示以及对第一个问题的回答。

多模态输入和模型回答

该模型能够识别出图片中三只戴着太阳镜的猫咪。此外，还更详细地描述了每只猫咪太阳镜的颜色。该模型还注意到了猫咪毛茸茸的特点。

接下来，我们可以进一步探索并优化查询。在下图中，可以看到与模型围绕图片构图展开的对话延续。首先，询问每只猫咪的毛发颜色细节。然后，询问背景颜色。

就同一图片细节与模型进行更深入的探讨

从模型对第二个和第三个问题的回答中，我们更加确信该模型真的能够解读场景构图。关于猫咪的每一个描述都是正确的：太阳镜颜色和毛发信息匹配正确，图片中猫咪的顺序（从左到右）也正确。背景颜色也描述准确。