8B 端侧小模型 | 能力全面对标GPT-4V！单图、多图、视频理解端侧三冠王，这个国产AI开源项目火爆全网

cv2016_DL

于 2024-08-13 14:53:17 发布

阅读量1k

点赞数 21

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012374012/article/details/141163623

版权

这两天， Github上一个国产开源AI 项目杀疯了！一开源就登上了 Github Trending 榜前列，一天就获得将近600 star。

这个项目就是国内大模型四小龙之一面壁智能最新大打造的面壁「小钢炮」 MiniCPM-V 2.6 。它再次刷新端侧多模态天花板，仅8B参数，单图、多图、视频理解全面超越 GPT-4V ！
更有多项功能首次上「端」：小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。
它端侧友好，量化后端侧 6G 内存即可使用；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。

➤MiniCPM-V 2.6开源地址：
GitHub🔗 https://github.com/OpenBMB/MiniCPM-V
HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6

➤llama.cpp、ollama、vllm 部署教程地址：
🔗https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

➤ MiniCPM 系列开源地址：
🔗https://github.com/OpenBMB/MiniCPM

这么惊艳的实时视频理解功能之间震惊掉了老外开发者的下巴，一下子就在全球开源社区爆火

下面，让我们一同看下它的能力!

单图、多图、视频理解三项 SOTA

指20B以下、端侧模型SOTA

以小博大，是端侧模型的核心竞争力。
仅 8B 参数，新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能，还首次作为端侧 AI 模型，掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局，且均实现 20B 参数以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知识压缩率方面，我们发现，MiniCPM-V 2.6 体现出极致的高效，取得了两倍于 GPT-4o 的最高多模态大模型像素密度（Token Density）。

Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度即图像信息密度，直接决定了多模态模型实际的运行效率，数值越大，模型运

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。