苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

486e42a21e79dacf54ed0f6786d62ce8.gif

7fad2b0d8a6ab6953f9b74c71712a6b4.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

e470bce138a5832634b01daeb058261b.png

论文地址:https://arxiv.org/pdf/2403.09611.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。

939df4e5b3e6631576aa8dabdc889f98.gif

6f14d714bb7c0b398f70280a57c394cc.png

f47074f9835ad6c98efbab397c9b9c68.png

e14b0fbf4c1a9e84b9c4b003b922b6b6.png

de24342fb35b2f5fe1d2b2895886ccb3.png

8d3b0390e985507a1edf410db7c79e5f.png

0002505a297f0cf9a937ceecb955e4a2.png

842e9905116b3b6e0debac083fb6a3ed.png

a37f5541fcee01da14c7f311776c93e6.png

4a446bd56c1e383b119da95d5120a79b.png

f5aede68980a01304af152ade14e9430.png

e39642b78473cec83d16540db79b41f7.png

039d411ae357e3ca3bc104c0b062d9dd.png

ff05b425708db2dfa06427d1285536e2.png

28278caced2300ff0127a0cfff7eafa0.png

74efe4a034dede56d81838563de73355.png

44b204df594d5afdb8157ccf7efb852e.png

a3cdb30fe4cf8eda4bb2c81f33387ddc.png

04cd88f416fcf61a0748f7a816eb405f.png

526bebb5fc93a9a642eb3fd015b3a188.png

监督微调结果

最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。

他们遵循 LLaVA-1.5 和 LLaVA-NeXT,从不同的数据集中收集了大约 100 万个 SFT 样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的 SFT 方法。

监督微调结果如下:

表 4 展示了与 SOTA 比较的情况,「-Chat」表示监督微调后的 MM1 模型。

首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。

其次,研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。在几乎所有基准测试中,苹果的 MoE 模型都比密集模型取得了更好的性能。这显示了 MoE 进一步扩展的巨大潜力。

第三,对于 30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。与 LLaVA-NeXT 相比,MM1 也取得了具有竞争力的全面性能。

不过,LLaVA-NeXT 不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为 2880 个发送到 LLM 的 token,而 MM1 的 token 总数只有 720 个。这就限制了某些涉及多图像的应用。

d163014b2534ae93038252c1e1b793b0.png

图 7b 显示,输入图像分辨率对 SFT 评估指标平均性能的影响,图 7c 显示,随着预训练数据的增加,模型的性能不断提高。

图像分辨率的影响。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。

预训练的影响:图 7c 显示,随着预训练数据的增加,模型的性能不断提高。

53988bb39f83a007a6fdd42a52ef093b.png

更多研究细节,可参考原论文。

7e66856f26de627b12623ade67ed665b.gif

END

a931b90799e69410cfad75f942a06827.gif

c0018630f685312830bdb3ca46bb08a9.gif

转载请联系本公众号获得授权

caed22953d005d12ed220c5cce5693b6.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

3cfa3ca977983b46af81bf103daa94f9.png

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值