MiniCPM-V 2.6 是面壁智能公司最新发布的多模态大模型,具有显著的性能提升和多项创新功能。以下是关于该模型的一些详细信息:
-
参数量与性能:
- MiniCPM-V 2.6 总共拥有8B个参数,是MiniCPM-V系列中最新、功能最强大的模型。
- 在单图、多图和视频理解方面,其性能超越了GPT-4V,并且在单图理解上优于GPT-4o mini、Gemini 1.5 Pro和Claude 3.5 Sonnet等商用闭源模型。
-
端侧性能:
- MiniCPM-V 2.6 在端侧的内存占用仅为6GB,推理速度达到18 tokens/s,比上一代模型快33%。
- 其知识压缩率极高,单token编码像素密度(token density)达到GPT-4o的两倍,这得益于视觉token相比上一代下降30%,比同类模型低75%。
-
多模态能力:
- MiniCPM-V 2.6 首次在端侧实现了单图、多图和视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得20B以下SOTA成绩。
- 它支持多种语言,并能够实时理解视频内容,提升了人机交互的自然度。
-
应用场景:
- MiniCPM-V 2.6 可以用于手机端运行,适用于单张图片、多张图片和视频的理解与处理。
- 它还具备多轮对话的能力,例如通过多轮对话清晰指导用户完成复杂任务如调整自行车车座,并根据说明书和工具箱推荐合适的工具。
综上所述,MiniCPM-V 2.6 是一款在端侧AI领域具有重大突破的多模态大模型,不仅在