苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

最新推荐文章于 2024-06-21 21:59:51 发布

计算机视觉研究院

最新推荐文章于 2024-06-21 21:59:51 发布

阅读量198

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247534204&idx=2&sn=e0c32077717b9f1d246916d7775f4dda&chksm=fadbc8ca18cb887e1ee734e6e77d9c0750c547d3dbc2b7ac72958f5fcaaf69d220c8b60a5dd8&scene=126&sessionid=0

版权

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2403.09611.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

苹果也在搞自己的大型多模态基础模型，未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。

监督微调结果

最后，研究者介绍了预训练模型之上训练的监督微调（SFT）实验。

他们遵循 LLaVA-1.5 和 LLaVA-NeXT，从不同的数据集中收集了大约 100 万个 SFT 样本。鉴于直观上，更高的图像分辨率会带来更好的性能，研究者还采用了扩展到高分辨率的 SFT 方法。

监督微调结果如下：

表 4 展示了与 SOTA 比较的情况，「-Chat」表示监督微调后的 MM1 模型。

首先，平均而言，MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试（MMMU 和 MathVista）中表现尤为突出。

其次，研究者探索了两种 MoE 模型：3B-MoE（64 位专家）和 6B-MoE（32 位专家）。在几乎所有基准测试中，苹果的 MoE 模型都比密集模型取得了更好的性能。这显示了 MoE 进一步扩展的巨大潜力。

第三，对于 30B 大小的模型，MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。与 LLaVA-NeXT 相比，MM1 也取得了具有竞争力的全面性能。

不过，LLaVA-NeXT 不支持多图像推理，也不支持少样本提示，因为每幅图像都表示为 2880 个发送到 LLM 的 token，而 MM1 的 token 总数只有 720 个。这就限制了某些涉及多图像的应用。

图 7b 显示，输入图像分辨率对 SFT 评估指标平均性能的影响，图 7c 显示，随着预训练数据的增加，模型的性能不断提高。

图像分辨率的影响。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。

预训练的影响：图 7c 显示，随着预训练数据的增加，模型的性能不断提高。

更多研究细节，可参考原论文。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2403.09611.pdf计算机视觉研究院专栏Column of Computer Vision Institute苹果也在搞自己的大型多模态基础模型，未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。监督微调结果最后，研究者...
复制链接

扫一扫