StableLLaVA:Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data

发表时间:28 Dec 2023

论文链接:https://arxiv.org/pdf/2308.10253 作者单位:University of Technology Sydney

MotivationOpenAI GPT-4 展示的显着多模态能力引发了人们对多模态大型语言模型 (LLM) 开发的极大兴趣。该模型的一个主要研究方向是在理解人类指令的同时有效地对齐视觉和文本模式。现有的方法依靠从基准数据集派生的注释来构建用于训练目的的图像对话数据集,类似于llm中的指令调优。然而,这些数据集通常表现出域偏差,这可能会限制模型的生成能力。

解决方法:为了减轻这些限制,我们提出了一种新颖的数据收集方法,该方法同步合成图像和对话以进行视觉指令调整。这种方法利用了生成模型的力量,利用 ChatGPT 和文本到图像生成模型的能力来生成具有不同图像内容的不同且可控的数据集。此外,数据集可以任意缩放。

实现方式我们使用 ChatGPT 和文本到图像生成模型来合成各种形式的视觉指令调整数据,例如多轮对话数据、多图像推理数据和异常检测数据。生成合成数据的方式:

实验we tested on a series of public multi-modal datasets, including VisWiz [10], MM-Vet [39], MME [8], and MMBench [22].

结论在这项研究中,我们介绍了一种创新的数据收集方法来增强多模态模型的视觉指令调整。与现有的策略相比,我们的方法独特地结合了图像和对话生成,有效地解决了基准数据集中发现的限制。

我们的研究为探索开辟了途径。展望未来,我们的目标是利用先进的生成模型来增强模型能力,包括空间理解和细粒度识别。凭借我们的双生成方法的良好结果,前向思考数据收集技术有望在 LLM 研究的未来发挥重要作用。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值