MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。
目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。
MiniCPM-V 1.0模型:该模型系列第一个版本,具有基础的多模态处理能力,同时是最轻量级的版本。
MiniCPM-V 2.0模型:此版本提供了高效而先进的端侧双语多模态理解能力,能够处理最大180万像素的高清大图,包括那些具有1:9极限宽高比的图像,进行高效编码和无损识别。
它集成了多模态通用能力、OCR(光学字符识别)综合能力和对多种类型数据的处理能力。
MiniCPM-Llama3-V 2.5:这是MiniCPM系列的最新版本,拥有80亿(8B)参数,被宣传为“最强端侧多模态模型”。它在2024年5月21日推出并开源,支持超过30种语言,性能超越了Gemini Pro和GPT-4V等多模态巨无霸模型。
该模型在HuggingFace和GitHub Trending榜上均登顶,展示了其在开源社区的影响力和受欢迎程度。
MiniCPM-Llama3-V 2.5强调了在有限的硬件资源(如8GB显存)上实现高效推理的能力,适合在手机等移动设备上部署。
github项目地址:https://github.com/OpenBMB/MiniCPM-V
一、环境安装
1、python环境
建议安装python版本在3.10以上。
2、pip库安装
pip install torch==2.1.2+