发表时间:28 Dec 2023
论文链接:https://arxiv.org/pdf/2308.10253 作者单位:University of Technology Sydney
Motivation:OpenAI GPT-4 展示的显着多模态能力引发了人们对多模态大型语言模型 (LLM) 开发的极大兴趣。该模型的一个主要研究方向是在理解人类指令的同时有效地对齐视觉和文本模式。现有的方法依靠从基准数据集派生的注释来构建用于训练目的的图像对话数据集,类似于llm中的指令调优。然而,这些数据集通常表现出域偏差,这可能会限制模型的生成能力。
解决方法:为了减轻这些限制,我们提出了一种新颖的数据收集方法,该方法同步合成图像和对话以进行视觉指令调整。这种方法利用了生成模型的力量,利用 ChatGPT 和文本到图像生成模型的能力来生成具有不同图像内容的不同且可控的数据集。此外,数据集可以任意缩放。
实现方式:我们使用 ChatGPT 和文本到图像生成模型来合成各种形式的视觉指令调整数据,例如多轮对话数据、多图像推理数据和异常检测数据。生成合成数据的方式:
实验:we tested on a series of public multi-modal datasets, including VisWiz [10], MM-Vet [39], MME [8], and MMBench [22].
结论:在这项研究中,我们介绍了一种创新的数据收集方法来增强多模态模型的视觉指令调整。与现有的策略相比,我们的方法独特地结合了图像和对话生成,有效地解决了基准数据集中发现的限制。
我们的研究为探索开辟了途径。展望未来,我们的目标是利用先进的生成模型来增强模型能力,包括空间理解和细粒度识别。凭借我们的双生成方法的良好结果,前向思考数据收集技术有望在 LLM 研究的未来发挥重要作用。