Bunny-3B: 多模态小模型新 SOTA，性能媲美 LLaVA-13B

最新推荐文章于 2024-04-26 16:33:01 发布

我爱计算机视觉

最新推荐文章于 2024-04-26 16:33:01 发布

阅读量97

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247619616&idx=1&sn=d8d69dba5232de34bbc293cd34162435&chksm=97ecc9ed04e55528b210335a3bff5b1257222a84e1190d8fbcb6cfeacf80a1bd0e6491a4b6a7&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

近期，Microsoft、Google、StabilityAI 等机构发布了多款小语言模型，并由此衍生出了一系列多模态小模型，揭开了多模态小模型全面竞赛的序幕。

在此背景下，BAAI 发布了新一代多模态小模型 Bunny 系列。特别是对高质量数据的探索，有效地挖掘了小模型的潜能，进而促进 Bunny-3B 取得全新 SOTA，在多个基准上媲美流行的 LLaVA-v1.5-13B 模型。

项目地址：https://github.com/BAAI-DCAI/Bunny
在线 Demo: http://bunny.dataoptim.org

作为一款性能强劲的多模态小模型，Bunny 在绝大多数基准上超越了 Imp、LLaVA-Phi、MobileVLM 等一系列近期热门模型，还取得了与 LLaVA-v1.5-13B 等大模型相当的多模态理解和推理能力。特别地，Bunny 基于 DataOptim 和 SVIT 数据项目，通过进一步优化多模态数据，得到更高质量的预训练和指令微调数据，从而令基于此训练的小模型性能逼近大模型。

Bunny 模型采用了经典的 Encoder+Projector+LLM 的架构，提供了一个可扩展的组合框架。支持多种 Vision Encoders，如 EVA CLIP、SigLIP 等，以及多种语言模型，包括 Phi-1.5、Phi-2、StableLM-2 等。

表 1

表 1 展示了各类多模态模型的评估结果对比。其中，Bunny 在大部分基准中达到了最佳性能。特别地，Bunny 在一部分指标上甚至超越了诸如 LLaVA-v1.5-13B 等更大规模的经典模型。

表 2

表 2 展示了基于本工作构造的高质量数据训练的 Bunny 系列模型的测评结果。体现出 Bunny 的高度可扩展性，即用户可以自由组合常见的视觉和语言模型，以构造符合预期的多模态小模型。

下图展示了 Bunny 的一些真实测试样例。粗体文本为用户输入，未加粗部分则为模型输出。

结语：轻量化作为多模态大模型普及的必经之路，已经成为时下新的学术和工业界研究焦点。如何在减小模型参数量和推理成本的同时，最大限度地保留和激发大模型的性能至关重要。其中，数据驱动的多模态模型研究将发挥关键作用。Bunny 系列从数据优化的角度出发，为多模态研究领域提供了一系列优质的开源模型。

END

欢迎加入「LLM」交流群👇备注：LLM

我爱计算机视觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bunny-3B: 多模态小模型新 SOTA，性能媲美 LLaVA-13B

关注公众号，发现CV技术之美近期，Microsoft、Google、StabilityAI 等机构发布了多款小语言模型，并由此衍生出了一系列多模态小模型，揭开了多模态小模型全面竞赛的序幕。在此背景下，BAAI 发布了新一代多模态小模型 Bunny 系列。特别是对高质量数据的探索，有效地挖掘了小模型的潜能，进而促进 Bunny-3B 取得全新 SOTA，在多个基准上媲美流行的 LLaVA-v1.5-...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。