本文是LLM系列文章,针对《Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models》的翻译。
Img-Diff:多模态大语言模型的对比数据合成
摘要
高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集,旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异,我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建成对的相似图像,以突出显示对象替换。我们的方法包括用于识别对象差异的差异区域生成器,然后是用于详细差异描述的差异标题生成器。结果是一个相对较小但高质量的“对象替换”样本数据集。我们使用所提出的数据集来微调 MGM-7B 等最先进的 (SOTA) MLLM,在大量图像差异和视觉问答方面,与使用更大规模数据集训练的 SOTA 模型相比,性能得分得到全面提高任务。例如,我们训练的模型在 MMVP 基准上明显超过了 SOTA 模型 GPT-4V 和 Gemini。此外,我们研究了通过“对象去除”生成图像差异数据的替代方法,并进行了彻底的评估,以确认数据集的多样性、质量和鲁棒性,提出了关于合成此类对比数据集的一些见解。为了鼓励进一步研究和推进多模态数据合成领域以及增强 MLLM 的图像理解基本能力,我们在