#史上最大多模态数据集

开源多模态大模型或将开始腾飞。

值此 Llama 3.1 占领各大头条之际,又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说,数据集的重要性无需多言,甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型(LMM)发展正盛的时候,规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过,相比于开源的文本数据集,现有的开源多模态数据集都比较小、多样性也不足,并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展,让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日,华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白,构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T(Multimodal INTerleaved)。毫无疑问,这是目前最大的开源多模态数据集。

  • 数据集地址:https://github.com/mlfoundations/MINT-1T
  • 论文地址:https://arxiv.org/abs/2406.11271
  • 论文标题:MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像,并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前,该领域最大的开源数据集是 OBELICS,其包含 1150 亿文本 token 和 3.53 亿张图像,并且来源只有 HTML。图 1 比较了这些数据集。

51c多模态~合集2_HTML

数据集的构建

首先,该团队从多样化的来源(包括 HTML、PDF、ArXiv)收集了大量多模态数据,图 2 展示了这些不同来源的多模态文档样本。

51c多模态~合集2_数据集_02

然后,为了提高数据质量和安全性,他们执行了文本质量过滤、图像过滤、安全过滤(包括去除 NSFW 图像和可识别个人身份的信息)以及去重。图 3 简要展示了这些数据过滤过程。

51c多模态~合集2_模态_03

最终,他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是,整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。

51c多模态~合集2_HTML_04

模型实验

该团队也实验了使用该数据集训练多模态模型的效果,并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM,评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括:视觉描述基准(COCO 和 TextCaps)、视觉问答基准(VQAv2、OK-VQA、TextVQA 和 VizWiz)、多图像推理基准(MMMU 和 Mantis-Eval)。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS;因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档,他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型,并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。

51c多模态~合集2_模态_05

可以看到,对于 VQA(视觉问答)任务,在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型,但前者在视觉描述任务上表现更差一些。平均而言,OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后,该团队又在 MINT-1T 全数据集上进行了测试,即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token,其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2,可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上,如表 3 所示,用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型,但在 Mantis-Eval 基准上不及后者。

51c多模态~合集2_HTML_06

更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点,最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢?让我们拭目以待吧。



#Bootstrapped Preference Optimization(BPO)

是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

本文第一作者皮仁杰是香港科技大学三年级博士生,师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型,以数据为中心的人工智能,以及自动化机器学习。

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

  • 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 论文链接:https://arxiv.org/pdf/2403.08730
  • 代码链接:https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

51c多模态~合集2_模态_07

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:

1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。

可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

51c多模态~合集2_HTML_08

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。

接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

51c多模态~合集2_数据集_09

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

51c多模态~合集2_模态_10

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

51c多模态~合集2_HTML_11

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

51c多模态~合集2_HTML_12

更多研究细节,可参考原论文。