点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2403.09611.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。
监督微调结果
最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。
他们遵循 LLaVA-1.5 和 LLaVA-NeXT,从不同的数据集中收集了大约 100 万个 SFT 样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的 SFT 方法。
监督微调结果如下:
表 4 展示了与 SOTA 比较的情况,「-Chat」表示监督微调后的 MM1 模型。
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。
其次,研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。在几乎所有基准测试中,苹果的 MoE 模型都比密集模型取得了更好的性能。这显示了 MoE 进一步扩展的巨大潜力。
第三,对于 30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。与 LLaVA-NeXT 相比,MM1 也取得了具有竞争力的全面性能。
不过,LLaVA-NeXT 不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为 2880 个发送到 LLM 的 token,而 MM1 的 token 总数只有 720 个。这就限制了某些涉及多图像的应用。
图 7b 显示,输入图像分辨率对 SFT 评估指标平均性能的影响,图 7c 显示,随着预训练数据的增加,模型的性能不断提高。
图像分辨率的影响。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。
预训练的影响:图 7c 显示,随着预训练数据的增加,模型的性能不断提高。
更多研究细节,可参考原论文。
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗