最强终端部署的多模态MiniCPM-V模型部署分享（不看后悔）

最新推荐文章于 2025-03-19 09:44:52 发布

置顶

杰说新技术

最新推荐文章于 2025-03-19 09:44:52 发布

阅读量2.6k

点赞数 16

分类专栏： AIGC 多模态文章标签： AIGC 人工智能

本文链接：https://blog.csdn.net/m0_71062934/article/details/140190614

版权

MiniCPM-V模型是一个强大的端侧多模态大语言模型，专为高效的终端部署而设计。

目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。

MiniCPM-V 1.0模型：该模型系列第一个版本，具有基础的多模态处理能力，同时是最轻量级的版本。

MiniCPM-V 2.0模型：此版本提供了高效而先进的端侧双语多模态理解能力，能够处理最大180万像素的高清大图，包括那些具有1:9极限宽高比的图像，进行高效编码和无损识别。

它集成了多模态通用能力、OCR（光学字符识别）综合能力和对多种类型数据的处理能力。

MiniCPM-Llama3-V 2.5：这是MiniCPM系列的最新版本，拥有80亿（8B）参数，被宣传为“最强端侧多模态模型”。它在2024年5月21日推出并开源，支持超过30种语言，性能超越了Gemini Pro和GPT-4V等多模态巨无霸模型。

该模型在HuggingFace和GitHub Trending榜上均登顶，展示了其在开源社区的影响力和受欢迎程度。

MiniCPM-Llama3-V 2.5强调了在有限的硬件资源（如8GB显存）上实现高效推理的能力，适合在手机等移动设备上部署。

github项目地址：https://github.com/OpenBMB/MiniCPM-V

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.1.2+

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

杰说新技术

关注关注

16
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

vllm 部署vlm多模态模型MiniCPM-V 2.6；opeanai 接口访问、requests接口；gradio页面

weixin_42357472的博客

08-12

1053

参考：vllm：0.5.4测试单卡4090不足，这里两张4090部署部署：显存不足也可以减少max-model-len 测试。

MiniCPM-V 2.6：端侧最强多模态大模型探索【本地部署实践】

寻道AI，探索AI无限可能！

08-22

7585

MiniCPM-V 2.6 是由面壁智能推出的一款端侧 AI 多模态模型。它在保持较小参数规模的同时，展现出了强大的多模态处理能力，能够处理图像、视频等多种数据类型，并实现了一系列先进的功能。这款模型的出现，为端侧设备上的人工智能应用提供了新的可能性。

参与评论您还未登录，请先登录后发表或查看评论

MiniCPM模型的简单部署

wm199的博客

02-20

4638

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。直接在本地运行，方便我们进一步探究该模型，接下来简单介绍一下该模型的本地部署工作安装错误```解决方案：# 模型所在目录的路径将模型目录添加到 sys.path``

gemma3、qwen2.5-vl、minicpm之间的对比评测

最新发布

zachary的博客

03-19

1887

gemma3、qwen2.5-vl、minicpm之间的对比评测

MiniCPM-V大模型部署教程

SJJS_1的博客

08-20

3609

MiniCPM-V 是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出，自 2024 年 2 月已发布 5 个版本模型。本文将详细介绍部署

部署MiniCPM-V

caoyongsheng的博客

10-29

471

遇到问题，RuntimeError: cutlassF: no kernel found to launch!torchvision版本不兼容目前没发现有啥大问题，有问题的话后续更新。模型推理的时候出现这个问题搜了搜本以为是bfloat精度问题，但改了之后依然没用。nvidia-smi的cuda version是12.2。nvcc -V 的cuda version是12.1。torch版本为2.1.2，最终。

【MiniCPM-V】win10本地部署OCR等性能测试

这个博客太懒了什么都没说

05-23

2092

本地配置如下。

MiniCPM-V_2.0

m0_60657960的博客

05-02

1237

大模型

【MiniCPM-V】win10本地部署踩坑

这个博客太懒了什么都没说

05-21

1427

OpenBMB/MiniCPM-V模型尝试

MiniCPM-V 项目安装和配置指南

gitblog_09006的博客

09-13

716

MiniCPM-V 项目安装和配置指南 MiniCPM-V MiniCPM-V 2.0: An Efficient End-side MLLM with Strong OCR and Understanding Capabilities ...

LLMs之MiniCPM：MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

04-27

4026

LLMs之MiniCPM：MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略目录 MiniCPM的简介 MiniCPM的安装和使用方法 MiniCPM的案例应用 MiniCPM的简介 MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量, 总计2.7B参数量。经过 SFT 后，Mi

MiniCPM-2B的ModelScope模型本地部署与网站制作

weixin_52810349的博客

02-04

2762

MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，主体语言模型 MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。所以就用python web 来搭载，这里使用的是streamlit，搭载web非常快。，一开始使用的是HuggingFace，但是HuggingFace的速度太慢。上面使用的是openbmb/MiniCPM-2B-dpo-bf16要进行修改。MiniCPM-2B-dpo-bf16只有5g可以轻松使用。下载对应的库和包，写者用的是。

minicpm-v_pytorch多模态OCR大模型

qq_27815483的博客

09-18

1845

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。

MiniCPM-V | 端侧GPT4V level的多模态大模型

justBeHerHero

08-14

1792

MiniCPM-V | 端侧GPT4V level的多模态大模型

本地部署 MiniCPM-Llama3-V 2.5

engchina的专栏

05-27

6644

本地部署 MiniCPM-Llama3-V 2.5

探索未来：MiniCPM-V——端侧多模态大模型的革命

gitblog_01148的博客

08-08

815

探索未来：MiniCPM-V——端侧多模态大模型的革命项目地址:https://gitcode.com/gh_mirrors/mi/MiniCPM-V 在人工智能的快速发展中，多模态大模型已成为推动技术进步的关键力量。今天，我们向您隆重介绍一款革命性的开源项目——MiniCPM-V，这是一款能够在端侧设备上实现GPT-4V级别图像和视频理解的多模态大模型。项目介绍 MiniCPM-V是由一支专...

MiniCPM-V 2.0：迈向高效部署的多模态大语言模型最佳实践指南

gitblog_02516的博客

01-14

573

MiniCPM-V 2.0：迈向高效部署的多模态大语言模型最佳实践指南 MiniCPM-V-2 项目地址: https://gitcode.com/mirrors/OpenBMB/MiniCPM-V-2 ...

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

m0_60388871的博客

09-07

1320

这种生成方法有助于更专注于可信度，因为可以避免来自不同MLLM的文本风格差异，同时反馈学习更高效，因为偏好直接在策略模型的分布上收集。为了解决这个问题，作者采用了最近提出的RLAIF-V方法，其关键在于通过开源模型获得高质量的反馈进行直接偏好优化（DPO）。大部分MLLM需要部署在高性能云服务器上，这种高成本和高能耗的特点，阻碍了其在移动设备、离线和隐私保护场景中的应用。预训练阶段的主要目标是将视觉模块（视觉编码器和压缩层）与大语言模型（LLM）的输入空间进行对齐，并学习基础的多模态知识。

MINICPM-V：多模态大模型试用

xiezhipu的博客

01-15

667

咱之前不是用ollama部署了MINICPM-V吗？之后还把它集成到了咱的dify里。现在，我们就要用一些问题，来考验它一下，看看现在的多模态大模型，发展到什么程度了。

minicpm-o大模型部署

03-17

<think>嗯，用户想部署MiniCPM-O大模型，我得先看看官方文档和引用内容。根据引用1和2，MiniCPM-O是端侧多模态模型，支持图像、视频、文本、音频输入，输出文本和语音。用户需要部署方法，可能遇到环境配置的问题，比如flash_attn的安装错误。首先，我应该整理部署步骤。官方文档是关键，所以第一步肯定是建议用户查看官方开源代码和文档，确保获取最新的安装方法。然后，环境准备需要Python、PyTorch，可能还有CUDA版本的问题，用户需要根据硬件选择合适的版本。接下来，依赖安装部分，引用2提到ImportError: flash_attn，需要安装特定的包，所以必须提醒用户用pip安装flash-attn和deepspeed。这里可能需要指定版本或者源，比如用清华源加速，或者从源码安装。然后是模型下载，Hugging Face和ModelScope是常用平台，用户需要下载模型权重和配置文件。配置路径的时候，可能需要修改config.json里的路径，这一点容易出错，要详细说明。部署示例部分，用户可能需要一个简单的代码示例，展示如何加载模型和进行推理。输入输出的格式也要注意，比如多模态输入的处理方式。最后，语音输出可能需要安装额外的库，比如soundfile或pydub，还有ffmpeg的依赖。常见问题里，要提到CUDA版本兼容性，安装flash_attn时的编译问题，以及路径配置错误。这些都是用户可能遇到的坑，提前提醒能帮他们节省时间。生成相关问题的话，可以围绕优化部署、多模态支持、端侧应用和故障排除来展开，覆盖用户可能进一步的需求。需要确保回答结构清晰，步骤明确，引用正确的来源，比如官方文档和用户提供的引用内容。</think>### MiniCPM-o 大模型部署方法教程 #### 一、环境准备 1. **硬件要求** - 推荐使用支持 CUDA 的 GPU（如 NVIDIA 显卡），显存需 ≥16GB[^2] - 若无 GPU，可尝试 CPU 推理（性能会显著下降） 2. **软件依赖** - Python ≥3.8 - PyTorch ≥2.0（需匹配 CUDA 版本） - 安装关键依赖包： ```bash pip install transformers>=4.35.0 flash-attn>=2.5.0 deepspeed>=0.12.3 ``` 若出现`ImportError: flash_attn`错误，可尝试： ```bash pip install flash-attn --no-build-isolation ``` #### 二、模型下载 1. 通过官方渠道获取模型权重： - Hugging Face Hub： ```python from transformers import AutoModel model = AutoModel.from_pretrained("OpenBMB/MiniCPM-o-2.6") ``` - 或通过 ModelScope： ```python from modelscope import snapshot_download model_dir = snapshot_download('OpenBMB/MiniCPM-o-2.6') ``` #### 三、配置文件设置 ```python # config.json 示例 { "model_type": "minicpm-o", "torch_dtype": "bfloat16", "device_map": "auto", "offload_folder": "offload" # 显存不足时启用参数卸载 } ``` #### 四、部署示例代码 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained( "OpenBMB/MiniCPM-o-2.6", trust_remote_code=True, device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained("OpenBMB/MiniCPM-o-2.6") # 多模态输入示例 inputs = tokenizer( "描述这张图片：", images="path/to/image.jpg", return_tensors="pt" ).to(model.device) outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0])) ``` #### 五、语音输出配置 ```python # 安装语音依赖 pip install soundfile pydub # 需要系统安装ffmpeg sudo apt install ffmpeg # Ubuntu/Debian ``` #### 六、常见问题解决 1. **CUDA版本不兼容** 确保 PyTorch 版本与 CUDA 版本匹配，可通过[PyTorch官网](https://pytorch.org/)查询对应命令 2. **flash_attn安装失败** 尝试源码编译安装： ```bash pip install ninja pip install flash-attn --no-cache-dir ``` 3. **模型路径错误** 检查`config.json`中的`_name_or_path`字段是否为实际模型路径建议部署前详细阅读[官方文档](https://github.com/OpenBMB/MiniCPM)获取最新配置说明。