Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

UnknownBody

于 2024-11-30 09:00:00 发布

阅读量178

点赞数 3

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/144026401

版权

LLM Daily 同时被 2 个专栏收录

1269 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

117 篇文章

订阅专栏

本文是LLM系列文章，针对《Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models》的翻译。

Img-Diff：多模态大语言模型的对比数据合成

摘要
引言
2 背景和相关工作
3 Img-Diff 的管理
4 对使用 Img-Diff 训练的模型进行评估
5 数据质量和多样性评估
6 “目标移除”探索
7 结论

摘要

高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集，旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异，我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建成对的相似图像，以突出显示对象替换。我们的方法包括用于识别对象差异的差异区域生成器，然后是用于详细差异描述的差异标题生成器。结果是一个相对较小但高质量的“对象替换”样本数据集。我们使用所提出的数据集来微调 MGM-7B 等最先进的 (SOTA) MLLM，在大量图像差异和视觉问答方面，与使用更大规模数据集训练的 SOTA 模型相比，性能得分得到全面提高任务。例如，我们训练的模型在 MMVP 基准上明显超过了 SOTA 模型 GPT-4V 和 Gemini。此外，我们研究了通过“对象去除”生成图像差异数据的替代方法，并进行了彻底的评估，以确认数据集的多样性、质量和鲁棒性，提出了关于合成此类对比数据集的一些见解。为了鼓励进一步研究和推进多模态数据合成领域以及增强 MLLM 的图像理解基本能力，我们在

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。