Unicorn: 用于视觉语言模型训练的纯文本数据合成

与传统的图像-文本数据合成框架不同,Unicorn 去除了对真实图像数据的依赖,通过减少 API 成本、合成时间和存储需求,提供了一种更高效和可扩展的解决方案。

视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024; Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023; Zhao, Zhou 和 Shou, 2024; Bai 等人, 2024) 。然而,扩大这种高质量数据的规模仍然是一个持续的挑战,限制了 VLMs 的进一步突破。

获取图像-文本对的传统方法主要依赖于两种策略:(1) 手动标注 (Lin 等人, 2015; Plummer 等人, 2016) 。手动标注确保质量但受限于成本、规模和多样性。(2) 大规模网络爬取 (Sharma 等人, 2018) 可扩展但引入了数据质量问题不一致、合规风险和版权问题。最近的研究,如 ShareGPT4V (Chen 等人, 2023) ,探索了使用高级模型(如 GPT-4v)生成细粒度标题来增强真实图像的方法,从而生成高质量的数据集,在视觉-语言任务中取得了显著改进。然而,这些合成数据方法仍然面临巨大的成本约束。相比之下,文本数据 (Wu 等人, 2024; Long 等人, 2024) 丰富、廉价且多样化,提供了未开发的机会。这引发了一个基本问题: 我们是否可以仅使用文本而不依赖真实或合成图像来为 VLMs 合成高质量的多模态训练数据?

答案是肯定的:最近研究表明,通过利用多模态对比表示空间的几何结构,可以在无需训练的情况下实现跨模态表示转移 (Zhang, Sui, 和 Yeung-Levy, 2024) 。尽管这一现象已在小规模任务中被探索,例如图像标题生成 (Tewel 等人, 2022; W. Li 等人, 2023) 和视觉问答 (Gu, Clark 和 Kembhavi, 2023; Y. Liu 等人, 2024) ,其在生成大规模合成数据方面的潜力尚未完全实现。

基于这一见解,如图 1 所示,我们提出了一种可扩展的多模态合成数据框架,称为 Unicorn ,通过缓解模态差距 (Liang 等人, 2022; Zhang 等人, 2023) 来消除对真实图像的依赖。通过利用共享表示空间的几何结构 (Zhang, Sui, 和 Yeung-Levy, 2024) ,Unicorn 直接从文本生成高质量的预训练和指令微调数据。Unicorn 不仅大幅降低了成本,还实现了高效构建多样化的高质量 VLM 训练数据集,为 VLM 训练提供了一种新的大规模数据合成方法。

Unicorn 采用了一个跨集成的三阶段管道来构建多样化的高质量多模态数据集。重要的是,前两个阶段完全在文本模态内合成数据,而最后一个阶段执行从文本表示空间到视觉表示空间的关键转换。此过程生成了两个关键数据集: Unicorn-1.2M 用于多模态预训练和 Unicorn-471K-Instruction 用于指令微调。 具体来说,在 第一阶段:多样化标题数据合成 中,使用 Qwen2.5-72B-Instruction (Yang 等人, 2024) 对 1.2M 稀疏标题种子添加详细信息。最终生成 1.2M 多样化的文本标题。这些多样化标题包括开放领域 (Lin 等人, 2015; Plummer 等人, 2016; Sharma 等人, 2018; Ordonez, Kulkarni 和 Berg, 2011) 和特定领域的内容 (Horn 等人, 2021; Kaur 等人, 2019) ,为后续阶段奠定基础。在 第二阶段:指令微调数据生成 中,使用 Stage 1 中的 471K 标题和 Qwen2.5-72B-Instruction (Yang 等人, 2024) 生成涵盖多项选择、问答和复杂推理的指令微调数据。最后,在 第三阶段:模态表示转换 中,我们将 LLM2CLIP (W. Huang 等人, 2024) 编码的多样化标题表示转换到视觉表示空间,获得合成图像表示。最终,我们合成了两个数据集: Unicorn-1.2M 用于预训练和 Unicorn-471K-Instruction 用于指令微调。总体而言,Unicorn 实现了无需依赖真实图像即可高效、可扩展地生成高质量多模态数据集。

2 背景

2.1 图像-文本数据合成

近年来,视觉语言模型(VLMs) (H. Liu 等 人, 2023; Zhu 等人, 2023) 在整合视觉和文本信息以解决复杂任务方面取得了显著进展。然而,大多数方法严重依赖大规模图像-文本对进行模态对齐预训练,面临着高成本、质量不一致和多样性有限等挑战。为了克服这些限制,多模态合成数据生成已成为提高 VLMs 性能的关键策略。早期方法,如 LLaVA (H. Liu 等人, 2023) ,重构现有的图像-文本数据以创建指令微调数据集,但依赖广泛的注释工作,通常会受到质量变化和可扩展性问题的影响。此外,一些研究,如 ShareGPT4V (Chen 等人, 2023) ,利用先进的视觉-语言模型(如 GPT-4V)进行自动注释以生成高质量的标题,但依赖昂贵的闭源模型,使其成本过高。此外,合成图像标题常出现幻觉问题 (L. Huang 等人, 2025; Y. Li 等人, 2023) ,影响数据可靠性。尽管这些方法推动了该领域的发展,但目前尚无完全基于文本生成多模态训练数据的解决方案。为解决这一空白,我们提出了首个仅从文本合成高质量多模态数据集的框架,为训练 MLLMs 提供了可扩展且成本效益高的解决方案,无需依赖真实或生成图像。

2.2 模态差距

3 数据合成管道

在本节中,我们介绍我们的数据合成管道,该管道能够创建两个数据集: Unicorn-1.2M 用于预训练和 Unicorn-471K-Instruction 用于指令微调。具体来说,Unicorn 框架通过一个跨集成的三阶段管道合成高质量的多模态数据:第一阶段:多样化标题数据合成;第二阶段:指令微调数据生成;第三阶段:模态表示转换,如图 [fig:pipeline] 所示。接下来,我们将详细介绍这些跨集成的阶段。

3.1 种子数据集

开放领域标题种子。 它包括两类图像标题数据集:人工标注和网络爬取。人工标注的标题数据集,如 Flickr30k (Plummer 等人, 2016) 和 COCO Caption (Lin 等人, 2015) ,提供了关于图像实体、事件和上下文的基本信息。为了确保多样性,我们每张图像只保留一个标题。网络爬取的标题数据集,如 Conceptual Captions (Sharma 等人, 2018) ,来源于大规模网络爬取,提供多样化的语义信息。尽管这些标题在规模和多样性方面表现出色,但其质量有限。为了提高其可用性,我们筛选并选择更接近高质量图像标题的标题。

特定领域知识种子。 为了注入领域知识,我们从六个细粒度图像分类数据集中收集了 10K 细粒度图像标签,涵盖 18 个领域。对于每个数据集,我们设计了专门的提示模板。例如,对于 FoodX-251 (Kaur 等人, 2019) 数据集,我们使用类似“一张美味的 <label> 图像”的模板,其中 <label> 动态替换为实际标签。每个标签与随机选择的 10 个模板配对。这种方法生成了 107K 特定领域知识种子,丰富了数据集的领域知识。

3.2 第一阶段:多样化标题数据合成

基于之前介绍的种子数据集,我们旨在进一步扩展其语义丰富性和多样性,以提高合成数据的质量。为此,我们提出一个关键假设: 当不断向初始文本标题种子添加更多细节时,语义空间中与之对应的想象图像集合将逐渐缩小,直至可以近似认为对应于一个不存在的唯一想象图像。 换句话说,即使不需要真实的图像或将其与任何照片或绘制的图像进行比较,仅仅通过逐步丰富文本细节,描述可以越来越接近一个独特定义的虚拟视觉实体。

3.3 第二阶段:指令微调数据合成

在第一阶段生成 1.2M 文本多样化标题之后,我们进入第二阶段:指令微调数据生成。在此阶段,我们生成了 471K 指令微调文本样本,旨在增强 VLM 的指令遵循和推理能力。值得注意的是,此阶段生成的所有数据完全以文本形式存在。

3.4 第三阶段:模态表示转换

3.5 合成数据集

经过三个阶段,我们合成了 1.2M 多样化标题、471K 指令微调数据和 1.2M 合成图像表示。

4 Unicorn-8B

基于这两个合成数据集,我们训练了一个名为 Unicorn-8B 的视觉语言模型(VLM)。本节介绍了 Unicorn-8B 的架构及其训练和推理过程的详细信息。图 [fig:process] 显示了相关细节。

4.1 架构

4.2 训练与推理

5 实验

5.1 合成数据质量评估

在本节中,我们从三个方面对 Unicorn-1.2M 和 Unicorn-471K-Instruction 进行评估:成本分析、长度分布和多样性。

成本分析。 如表 [tab:cost] 所示,我们将两个合成数据集 ShareGPT4V 和 Unicorn-1.2M 的成本效率进行了比较,涉及三个维度:API 调用成本、时间和存储。ShareGPT4V 每个样本的 API 调用成本为 $0.00684,而 Unicorn-1.2M 的成本仅为 $0.0003——仅为前者的 4%。在数据生成时间和存储方面,ShareGPT4V 需要 44 天和 109 GB,而 Unicorn-1.2M 将其减少到 12 天和 4 GB,分别减少了 73% 的时间和 96% 的存储需求。这些结果突显了 Unicorn-1.2M 在成本降低、更快的数据生成和更低的存储需求方面的显著优势,使其非常适合大规模合成数据应用。

长度分布。 在图 2 中,我们比较了 Unicorn 和 ShareGPT4V 使用的预训练文本数据集的长度分布。两个数据集均包含超过 120 万样本(Unicorn-1.2M 为 1,246,901,ShareGPT4V 为 1,243,195)。与 ShareGPT4V 不同,Unicorn-1.2M 展现出接近正态分布的长度分布,更好地反映了现实世界数据。Unicorn-1.2M 中最短样本包含 51 个词,而 ShareGPT4V 仅为 9 个词,表明语义内容更丰富。尽管如此,两个数据集的最大长度相似(ShareGPT4V 为 507,Unicorn-1.2M 为 483),平均长度也相近(144 对 129)。这表明 Unicorn 有效捕捉了图像注释的复杂性,为模型训练提供了高质量、多样化的数据。

Unicorn-1.2M 和 ShareGPT4V 数据长度分布的比较。

多样性分析。 为了系统评估生成数据集的多样性,如表 [tab:diversity] 所示,我们采用了两种多样性指标——型-符比率(TTR)和熵,来评估 Unicorn-1.2M 和 ShareGPT4V。我们的结果明确显示,在相当规模的数据下,Unicorn-1.2M 达到了比 ShareGPT4V 更高的多样性水平。这一发现强化了 Unicorn-1.2M 在合成丰富多样的数据方面的能力,这主要归功于开放领域多样性和嵌入在 Unicorn-1.2M-Seed 中的广泛领域知识。实际上,这表明广泛的领域知识覆盖可以在增强合成数据集的多样性方面发挥关键作用。

5.2 定量 VLM 性能分析

总结见表 [tab:main] ,尽管仅基于纯合成文本数据进行训练,Unicorn-8B 的性能可与或优于使用大规模图像-文本数据集训练的最先进的 VLMs。值得注意的是,在具有挑战性的 ScienceQA-IMG 基准上,Unicorn-8B 达到了 71.3 的准确率,超越其他基线模型 0.1 。这一显著结果证明了我们仅基于文本的训练范式能够捕捉复杂的多模态推理能力。此外,Unicorn-8B 在其他基准上也表现出色。例如,在 POPE 上得分为 75.0 ,在 MM-Vet 上得分为 24.5 ,进一步验证了我们方法的鲁棒性。考虑到 Unicorn-8B 是在一个显著较小的数据集(1.2M 合成文本样本和 471K 额外数据点)上训练的,而竞争模型通常依赖包含数百万甚至数十亿图像-文本对的多模态数据集,这些结果尤其令人印象深刻。

Unicorn-8B 在 MME \(^C\) 和 ScienceQA 基准上的性能随不同训练数据规模的变化。

总之,Unicorn-8B 表明,完全基于文本的合成训练方法可以达到与传统多模态训练管道相媲美甚至更优的性能。这种范式转变凸显了可扩展、仅基于文本的方法在推进视觉语言理解方面的潜力,同时显著降低了对多模态数据集的依赖。

5.3 定量消融研究

数据规模的影响。 我们通过使用数据集的 5%、30% 和 100% 来训练模型,研究了数据规模与模型性能之间的关系。如图 3 所示,随着数据规模的增加,模型性能稳步提升。例如,使用 30% 的数据即可达到具有竞争力的结果,而使用完整数据集则进一步提升了性能。这些发现验证了 Unicorn 的有效性,并突显了其低成本可扩展性的优势。通过利用 Unicorn-1.2M 高效的数据合成过程,只需生成和整合更多数据即可获得额外的性能提升,使该方法高度适应更大规模的应用。

细粒度领域知识注入的能力。 为了评估特定领域的知识注入效果,我们构建了 iNaturalist-VQA,这是一个基于 iNaturalist 21 的细粒度视觉问答基准。它包含来自 13 个领域的 10K 张图像,每张图像对应一个细粒度标签。每张图像的问题相同:“这张图像的主要内容是什么?”并提供四个答案选项,包括一个正确标签和三个来自同一领域的干扰项。如表 [tab:VQA] 所示,经过模态表示转换后,Unicorn-8B 的整体得分提高了 8.3 。显著的提升包括植物(37.4 → 47.9 )、昆虫(36.8 → 42.4 )和鸟类(47.7 → 56.9 ),展示了其增强的细粒度领域知识整合能力。

5.4 定性 VLM 性能分析

如图 [fig:qualitative] 所示,我们提供了 Unicorn-8B 在 ScienceQA 和 iNaturalist-VQA 基准上的定性结果。ScienceQA 包含科学领域中各种问题,评估模型在物理学、生物学和化学等领域中的推理和知识应用能力。相比之下,iNaturalist-VQA 专注于细粒度视觉问答,要求精确识别自然场景中的细微差异。这些结果展示了 Unicorn-8B 在通用科学推理任务和特定领域细粒度视觉理解方面的强大性能,突显了其适应多样化多模态挑战的能力。

6 结论与局限性

结论: 在本研究中,我们引入了一种新颖的三阶段多模态数据合成框架,重新定义了视觉语言模型训练的范式,消除了对真实图像的依赖。通过充分利用丰富的纯文本数据,我们使用先进的标题生成、指令合成和模态表示转换技术构建了两个高质量数据集: Unicorn-1.2M 用于预训练和 Unicorn-471K-Instruction 用于指令微调。我们的框架建立了一种可扩展、成本效益高且高效的 VLM 训练方法,同时保留了数据质量、多样性和跨模态对齐。

Bai, Tianyi, Hao Liang, Binwang Wan, Yanran Xu, Xi Li, Shiyu Li, Ling Yang, et al. 2024. “从数据驱动视角对多模态大语言模型的综述。” https://arxiv.org/abs/2405.16640 .

Chen, Lin, Jinsong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, and Dahua Lin. 2023. “ShareGPT4V:使用更好的标题改进大型多模态模型。” https://arxiv.org/abs/2311.12793 .

Fu, Chaoyou, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, et al. 2024. “MME:多模态大语言模型的综合评估基准。” https://arxiv.org/abs/2306.13394 .

Gu, Sophia, Christopher Clark, and Aniruddha Kembhavi. 2023. “我简直不敢相信没有图像!仅使用语言监督学习视觉任务。” https://arxiv.org/abs/2211.09778 .

Horn, Grant Van, Elijah Cole, Sara Beery, Kimberly Wilber, Serge Belongie, and Oisin Mac Aodha. 2021. “自然世界图像集合的表示学习基准测试。” https://arxiv.org/abs/2103.16483 .

Huang, Lei, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, et al. 2025. “大型语言模型幻觉的调查:原理、分类、挑战和开放问题。” ACM Transactions on Information Systems 43 (2): 1–55. https://doi.org/10.1145/3703155 .

Huang, Weiquan, Aoqi Wu, Yifan Yang, Xufang Luo, Yuqing Yang, Liang Hu, Qi Dai, et al. 2024. “LLM2CLIP:强大的语言模型解锁更丰富的视觉表示。” https://arxiv.org/abs/2411.04997 .

Hudson, Drew A., and Christopher D. Manning. 2019. “GQA:用于真实世界视觉推理和组合问答的新数据集。” https://arxiv.org/abs/1902.09506 .

Kaur, Parneet, Karan Sikka, Weijun Wang, Serge Belongie, and Ajay Divakaran. 2019. “FoodX-251:用于细粒度食品分类的数据集。” https://arxiv.org/abs/1907.06167 .

Li, Feng, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, and Chunyuan Li. 2024. “LLaVA-NeXT-Interleave:在大型多模态模型中处理多图像、视频和 3D。” https://arxiv.org/abs/2407.07895 .

Li, Wei, Linchao Zhu, Longyin Wen, and Yi Yang. 2023. “Decap:通过仅文本训练进行零样本标题生成的 CLIP 潜在解码。” arXiv Preprint arXiv:2303.03032 .

Li, Yifan, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. 2023. “评估大型视觉语言模型中的对象幻觉。” https://arxiv.org/abs/2305.10355 .

Liang, Weixin, Yuhui Zhang, Yongchan Kwon, Serena Yeung, and James Zou. 2022. “Mind the Gap:了解多模态对比表示学习中的模态差距。” https://arxiv.org/abs/2203.02053 .

Lin, Tsung-Yi, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollár. 2015. “Microsoft COCO:上下文中的常见对象。” https://arxiv.org/abs/1405.0312 .

Liu, Haotian, Chunyuan Li, Yuheng Li, and Yong Jae Lee. 2024. “通过视觉指令调优改进基线。” https://arxiv.org/abs/2310.03744 .

Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023. “视觉指令调优。” https://arxiv.org/abs/2304.08485 .

Liu, Yang, Xiaomin Yu, Gongyu Zhang, Zhen Zhu, Christos Bergeles, Prokar Dasgupta, Alejandro Granados, and Sebastien Ourselin. 2024. “ArcSin:语言驱动视觉任务中的自适应范围余弦相似度注入噪声。” https://arxiv.org/abs/2402.17298 .

Long, Lin, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, and Haobo Wang. 2024. “关于 LLMs 驱动的合成数据生成、策划和评估的调查。” https://arxiv.org/abs/2406.15126 .

Ordonez, Vicente, Girish Kulkarni, and Tamara Berg. 2011. “Im2Text:使用一百万张带标题的照片描述图像。” In Advances in Neural Information Processing Systems , edited by J. Shawe-Taylor, R. Zemel, P. Bartlett, F. Pereira, and K. Q. Weinberger. Vol. 24. Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2011/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf .

Plummer, Bryan A., Liwei Wang, Chris M. Cervantes, Juan C. Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. 2016. “Flickr30k Entities:收集区域到短语对应以构建更丰富的图像到句子模型。” https://arxiv.org/abs/1505.04870 .

Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, et al. 2021. “通过自然语言监督学习可转移的视觉模型。” https://arxiv.org/abs/2103.00020 .

Sharma, Piyush, Nan Ding, Sebastian Goodman, and Radu Soricut. 2018. “Conceptual Captions:清理过的、超类的图像替代文本数据集用于自动图像标题生成。” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , 2556–65.

Tewel, Yoad, Yoav Shalev, Idan Schwartz, and Lior Wolf. 2022. “ZeroCap:用于视觉-语义算术的零样本图像到文本生成。” https://arxiv.org/abs/2111.14447 .

Wu, Siyuan, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, et al. 2024. “UniGen:使用大型语言模型生成文本数据集的统一框架。” https://arxiv.org/abs/2406.18966 .

Yang, An, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, et al. 2024. “Qwen2.5 技术报告。” arXiv Preprint arXiv:2412.15115 .

Zhai, Xiaohua, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. 2023. “用于语言图像预训练的 Sigmoid 损失。” https://arxiv.org/abs/2303.15343 .

Zhang, Yuhui, Jeff Z. HaoChen, Shih-Cheng Huang, Kuan-Chieh Wang, James Zou, and Serena Yeung. 2023. “使用语言诊断和修正视觉模型。” https://arxiv.org/abs/2302.04269 .

Zhang, Yuhui, Elaine Sui, and Serena Yeung-Levy. 2024. “Connect, Collapse, Corrupt:使用单模态数据学习跨模态任务。” https://arxiv.org/abs/2401.08567 .

Zhao, Henry Hengyuan, Pan Zhou, and Mike Zheng Shou. 2024. “Genixer:赋予多模态大语言模型作为强大数据生成器的能力。” https://arxiv.org/abs/2312.06731 .

Zhu, Deyao, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. 2023. “Minigpt-4:通过高级大语言模型增强视觉-语言理解。” arXiv Preprint arXiv:2304.10592 .

原论文:https://arxiv.org/pdf/2503.2265

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值