Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

本文是LLM系列文章,针对《Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models》的翻译。

摘要

高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集,旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异,我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建成对的相似图像,以突出显示对象替换。我们的方法包括用于识别对象差异的差异区域生成器,然后是用于详细差异描述的差异标题生成器。结果是一个相对较小但高质量的“对象替换”样本数据集。我们使用所提出的数据集来微调 MGM-7B 等最先进的 (SOTA) MLLM,在大量图像差异和视觉问答方面,与使用更大规模数据集训练的 SOTA 模型相比,性能得分得到全面提高任务。例如,我们训练的模型在 MMVP 基准上明显超过了 SOTA 模型 GPT-4V 和 Gemini。此外,我们研究了通过“对象去除”生成图像差异数据的替代方法,并进行了彻底的评估,以确认数据集的多样性、质量和鲁棒性,提出了关于合成此类对比数据集的一些见解。为了鼓励进一步研究和推进多模态数据合成领域以及增强 MLLM 的图像理解基本能力,我们在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值