升级Ollama!MiniCPM-V2_6图像识别模型上线,适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

Ollama 发布了一个新版本,并且带来了三个很酷的新功能。首先,我们现在支持 MiniCPM 视觉模型,还支持 Yi-Coder 模型和 DeepSeek V2.5 版本。

我会在不同的视频中介绍这三个功能,但对我来说,最吸引人的无疑是这个 MiniCPM 视觉模型。如果你还不了解 MiniCPM 视觉模型,可以告诉你,它是一个紧凑但非常强大的模型,尤其是在视觉和通用任务方面。

如果你访问 Hugging Face,他们提供了很多关于这个模型的详细信息,你可以浏览并查看相关内容。

比如,最新版本是 2.6,这是该系列中最强大的模型。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共有 8B 个参数。

与 MiniCPM-Llama3-V 2.5 相比,它的性能有了显著提升,并引入了用于多图像和视频理解的新功能。MiniCPM-V 2.6 的显著特点包括:

如果你访问 Ollama 的网站,可以在模型部分搜索 MiniCPM,或者直接访问他们的 GitHub 页面。你可以看到,这就是 MiniCPM 视觉模型,现在已经可以使用了。

不过在运行之前,你需要先升级 Ollama。在这个视频中,我将首先展示如何在本地系统中升级 Ollama,然后下载 MiniCPM,并进行一些操作。

如果运行 `Ollama --version`,你会看到我目前使用的版本是 3.6。

如果你访问 Ollama 的发布页面,你会发现最新的版本是 3.10,这个版本支持 MiniCPM 视觉模型 和 DeepSeek 模型。

因此,我们首先需要升级 Ollama。升级命令和初次安装时一样。访问 Ollama 的网站,点击下载,选择对应的操作系统。我使用的是 Linux,所以点击 Linux,复制这里的命令,然后回到终端并运行该命令。这需要一些时间,大约一分钟。

不过,对于国内来说使用这个命令通常会卡死。这里我介绍一个自己使用百分百能成功的方法:

我们先直接去github下载他的安装包

然后去这个网址把脚本文件复制下来(或者下载 install.sh):https://ollama.com/install.sh

然后操作我图中画出来的两步(一个是注释,一个是替换为上面下载的二进制文件夹路径,**tips:**一定要是二进制的目录,以便进行离线安装):

之所以这样离线安装,是因为官方给的手动(离线)安装的结束后出现了“段错误”。

Ollama 已经升级了,但我们需要指向新的二进制文件。复制新的二进制文件路径,然后再次运行 `Ollama --version`。

虽然 Ollama 已升级到 3.10 版本,但客户端还是 3.6,所以我们还需要升级客户端。虽然已经升级了,但我们需要重新加载系统守护进程和服务。所以重新加载守护进程,然后停止 Ollama 服务,接着重新启动它。现在如果再次运行 `Ollama --version`,你会看到版本已经是 3.10。

现在 Ollama 已经升级完成了。顺便提一下,如果你在 Docker 中使用 Ollama,需要运行相关命令。**我没有使用 Docker,所以跳过这一部分。**如果你在 Windows 或 Mac 上使用,只需根据系统设置环境变量即可。

现在 Ollama 已经升级好了,让我们回到 Ollama 的 MiniCPM 页面,下载 MiniCPM 视觉模型。回到终端,运行命令开始下载,模型的大小大约是 4.44 GB,下载后它会进行校验。

模型已经下载完毕,校验也已完成。接下来展示如何使用它。比如,如何识别图像、描述图像,或者使用 MiniCPM 视觉模型进行 OCR。

我已经在图像目录中,想要描述图像的话,运行 `ollama run` 命令,后面跟上模型名称、提示词和图像文件名。

现在你可以看到,模型正在描述图像,描述非常详细和准确。比如,它描述了带兜帽的树、日落、一群鸟等等。图片的内容和描述完全吻合,模型表现得非常好。

我在测试中注意到,有时如果不指定语言,模型会返回中文描述。不过你也可以直接要求它用中文回答,你看,它现在给出了中文描述。

除了图像描述,你还可以使用 OCR 功能。只需要给出图像文件,并询问图像中的文本内容。比如,我已经有一张图片,

现在你可以看到,它识别了括号、百分号,甚至还正确识别了特殊字符,比如带重音符的字母。它不仅识别了英文,还识别了其他语言,OCR 效果非常好。

让我再展示一个示例图片。这次我问它这是什么建筑,答案是斯蒂芬大教堂。

模型识别出了这是一座大教堂,当我进一步询问建筑的地点时,它正确地回答这是位于奥地利维也纳的圣斯蒂芬大教堂。

你可以看到,模型非常强大,现在我们可以在 Ollama 上运行它,所有操作都可以通过文本提示完成。


如何学习大模型?

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

如有侵权,请联系删除

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值