win10+ollama+minicpm-v2.6进行多模态大模型调用测试记录

win10+ollama+minicpm-v2.6进行多模态大模型调用测试记录

前言

本次记录在win10系统下,使用ollama和minicpm-v2.6,进行图像分析。即输入一张图像给多模态大模型分析图像中的信息。

一、安装ollama

1.下载安装包

进入ollama官网,下载对应系统版本就行。官网链接
在这里插入图片描述

2.安装

安装时不能选择安装路径,默认直接安装到C盘。但是我们可以修改模型下载路径。
安装结束后,打开cmd终端,输入:

ollama list

出现列表就表示安装成功
在这里插入图片描述

修改模型存储路径,由于大模型的模型文件都比较大,直接存到默认路径(C:\Users\用户名.ollama)下的话,很容易撑爆C盘。修改步骤如下
1)在系统变量里面新建一个名字为“OLLAMA_MODELS”的变量。
2)变量值中写入你想保存模型的路径
3)重启电脑
在这里插入图片描述

二、下载模型文件

同样是进入ollama官网。选择你需要的模型
在这里插入图片描述
本次使用minicpm-v2.6:Q4_K_M模型,复制指令,到终端运行,进行模型下载。
在这里插入图片描述
下载结束后试运行一下,运行指令

ollama run aiden_lu/minicpm-v2.6:Q4_K_M

在这里插入图片描述

三、代码调用

1.pip安装ollama

先使用pip安装ollama,输入指令

pip install ollama
2.测试代码

测试代码如下

import ollama
response = ollama.chat(
    model = "aiden_lu/minicpm-v2.6:Q4_K_M",
    messages = [{
        'role':'user',
        'content':'请使用中文回答,图片中是什么东西?',
        'images':['1.jpg']
    }]
)

print(response['message']['content'])

增加耗时计算

import ollama
import time
start_time = time.time()  # 记录开始时间
response = ollama.chat(
    model = "aiden_lu/minicpm-v2.6:Q4_K_M",
    messages = [{
        'role':'user',
        'content':'请使用中文回答,图片中是什么东西?',
        'images':['1.jpg']
    }]
)

print(response['message']['content'])
end_time = time.time()  # 记录结束时间
elapsed_time = end_time - start_time  # 计算耗时
print(f"{elapsed_time:.4f} 秒")

图片请替换成你自己想测试的。我使用的图片如下

在这里插入图片描述

3.运行结果

测试结果如下,模型还是较为准确的输出了对该图像的分析结果。
在这里插入图片描述

### MiniCPM-V-2.6 知识库集成与使用说明 #### 一、MiniCPM-V-2.6简介 MiniCPM-V 2.6是一个用于单图像、多图像和视频的GPT-4V级别的MLLM(多模态语言模型)。该模型具备强大的语言理解和生成能力,可以处理多种涉及图像和视频的任务。借助此工具,用户能够在移动设备上实现对图像和视频的智能化分析与互动[^2]。 #### 二、知识库集成方式 为了使MiniCPM-V-2.6更好地服务于特定应用场景,通常会将其与外部的知识库相结合。这种结合可以通过API接口调用来完成,也可以是在源码层面做定制化开发来达成更深层次的功能融合。具体来说: - **API接口调用**:如果目标平台支持RESTful API或其他形式的服务端口,则可以直接利用这些服务来进行数据交换;这种方式简单快捷,适合快速原型验证。 - **源码层面上的修改**:当需要更加紧密地耦合两个系统时,可能就需要深入研究MiniCPM-V-2.6及其所依赖框架的内部机制,在此基础上编写适配代码以接入指定的知识库资源。这往往涉及到理解并遵循项目的贡献指南以及相关技术栈的最佳实践[^1]。 #### 三、使用说明概览 一旦完成了上述任一种类型的集成工作之后,便可以根据实际需求设计具体的业务逻辑流程。一般而言,操作步骤如下所示: 加载已下载好的`MiniCPM-V-2_6`目录下的模型文件,并初始化必要的环境变量; 准备待处理的数据集——无论是静态图片还是动态影像片段均可作为输入素材; 执行推理过程,即让模型依据给定提示词或上下文信息去解析所提供的多媒体资料; 最后收集输出结果并对之加以解释应用,比如提取关键帧特征描述、自动生成解说文案等。 ```python from minicpm_v import load_model, process_image_or_video model_path = "./MiniCPM-V-2_6" loaded_model = load_model(model_path) input_data = "path_to_your_input_file.jpg" # 或者 .mp4 文件路径 output_result = process_image_or_video(loaded_model, input_data) print(output_result) ``` #### 四、官方文档获取途径 关于更多详细的配置选项和技术细节,请参阅GitHub仓库中的README.md文件以及其他配套文档。此外还可以关注开发者社区论坛上的讨论帖,那里经常会有热心人士分享宝贵经验或是解答疑问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小俊俊的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值