推荐一个图片识别的llama3微调版本清华面壁项目

飞鸟真人

已于 2024-06-03 22:14:48 修改

阅读量771

点赞数 7

分类专栏：大模型文章标签： LLAMA

于 2024-06-03 22:13:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/robinfoxnan/article/details/139425770

版权

大模型专栏收录该内容

5 篇文章 2 订阅

订阅专栏

水一篇：

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，我们共发布了4个版本模型，旨在实现领先的性能和高效的部署，目前该系列最值得关注的模型包括：

MiniCPM-Llama3-V 2.5：🔥🔥🔥 MiniCPM-V系列的最新、性能最佳模型。总参数量8B，多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型，OCR 能力及指令跟随能力进一步提升，并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术，MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
MiniCPM-V 2.0：MiniCPM-V系列的最轻量级模型。总参数量2B，多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型，可接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。

测试的DEMO： https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5

项目地址中文介绍：https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

他们还把这个模型放到小米14上运行：

我试了一下测试地址里面的DEMO，识别图片确实很精准，插画都能进行描述；

但是不是对话类型的模型，对话还是很弱。

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
推荐一个图片识别的llama3微调版本清华面壁项目

图文识别类的模型
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。