MiniCPM-V 2.6是什么？

最新推荐文章于 2024-08-07 14:00:56 发布

百态老人

最新推荐文章于 2024-08-07 14:00:56 发布

阅读量342

点赞数 11

文章标签：笔记人工智能

本文链接：https://blog.csdn.net/weixin_41429382/article/details/140971167

版权

MiniCPM-V 2.6 是面壁智能公司最新发布的多模态大模型，具有显著的性能提升和多项创新功能。以下是关于该模型的一些详细信息：

参数量与性能：
- MiniCPM-V 2.6 总共拥有8B个参数，是MiniCPM-V系列中最新、功能最强大的模型。
- 在单图、多图和视频理解方面，其性能超越了GPT-4V，并且在单图理解上优于GPT-4o mini、Gemini 1.5 Pro和Claude 3.5 Sonnet等商用闭源模型。
端侧性能：
- MiniCPM-V 2.6 在端侧的内存占用仅为6GB，推理速度达到18 tokens/s，比上一代模型快33%。
- 其知识压缩率极高，单token编码像素密度（token density）达到GPT-4o的两倍，这得益于视觉token相比上一代下降30%，比同类模型低75%。
多模态能力：
- MiniCPM-V 2.6 首次在端侧实现了单图、多图和视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得20B以下SOTA成绩。
- 它支持多种语言，并能够实时理解视频内容，提升了人机交互的自然度。
应用场景：
- MiniCPM-V 2.6 可以用于手机端运行，适用于单张图片、多张图片和视频的理解与处理。
- 它还具备多轮对话的能力，例如通过多轮对话清晰指导用户完成复杂任务如调整自行车车座，并根据说明书和工具箱推荐合适的工具。

综上所述，MiniCPM-V 2.6 是一款在端侧AI领域具有重大突破的多模态大模型，不仅在

关注