【AI论文】ABC: 利用视觉语言模型实现多模态嵌入的更好控制

最新推荐文章于 2025-05-20 21:08:02 发布

东临碣石82

最新推荐文章于 2025-05-20 21:08:02 发布

阅读量893

点赞数 12

文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.csdn.net/m0_66899341/article/details/146068446

版权

摘要：视觉嵌入模型在零样本任务（如视觉检索和分类）方面表现出色。然而，这些模型无法处理包含歧义或需要用户指令的任务。这些任务需要一种多模态嵌入模型，该模型能够输出结合视觉和自然语言输入的嵌入。现有的基于CLIP的方法独立地嵌入图像和文本，然后将结果融合。我们发现，这会导致模态之间的交互作用较弱，且用户对表示的控制能力较差。我们推出了ABC，这是一种开源的多模态嵌入模型，使用视觉语言模型主干来深度整合图像特征与自然语言指令。在MSCOCO图像到文本的检索任务中，ABC实现了同规模下的最佳性能，并在大规模多模态嵌入基准测试中的分类和视觉问答（VQA）任务上表现最优。凭借强大的统一视觉语言表示，ABC可以使用自然语言来解决微妙且可能存在歧义的视觉检索问题。为了评估这一能力，我们设计了CtrlBench，这是一个需要交错文本指令和图像内容以进行正确检索的基准测试。ABC通过提供高质量的表示和灵活的自然语言控制，推进了多模态嵌入技术的最新发展水平。我们的模型和数据集可在我们的项目页面上获取。Huggingface链接：Paper page，论文链接：2503.00329

一、引言

视觉嵌入已成为计算机视觉领域的基础表示方法。图像嵌入模型在多种零样本任务中，如视觉检索和图像分类，都达到了最先进的水平。然而，这些模型在处理包含歧义或需要用户指令的任务时显得力不从心。这些任务要求一个能够将视觉和自然语言输入相结合的多模态嵌入模型。现有的基于CLIP的方法独立地嵌入图像和文本，然后将结果融合，但这种方式导致模态之间的交互作用较弱，且用户对表示的控制能力较差。

二、研究背景与动机

1. 视觉嵌入模型的局限性

自CLIP模型发布以来，其双编码器架构一直是生成高质量视觉嵌入的先进方法。然而，CLIP模型仅支持独立地嵌入图像或文本，无法处理需要额外说明的复杂视觉嵌入任务。例如，在图1所示的场景中，一个CLIP模型无法区分哪个答案是正确的，因为两个标题都是合理的，除非用户提供额外的指令。

2. 多模态嵌入的必要性

对于需要额外说明或包含歧义的任务，多模态嵌入模型是必不可少的。多模态嵌入是一种将视觉和自然语言交织在一起的表示方法。然而，现有的多模态嵌入方法存在两个问题：一是指令模糊且重复，导致指令过拟合；二是模态之间的交互作用较弱，使得指令的使用流于表面。

三、ABC模型介绍

1. 模型设计

为了解决上述问题，我们引入了ABC模型，这是一种使用自然语言指令来控制多模态嵌入的开源模型。ABC的视觉语言模型（VLM）主干允许它在构建视觉嵌入时整合自然语言指令。为了实现这一点，我们对VLM进行了几项架构更改，包括启用双向注意力机制，允许所有令牌相互关注，并通过在最后隐藏层对令牌进行平均池化并使用一个简单的残差连接MLP层来创建密集嵌入。

2. 训练过程

ABC的训练过程分为两个阶段：预训练和指令微调。在预训练阶段，我们使用自监督学习在图像-标题对上适应用于生成建模的特征，以生成类似于CLIP的嵌入。在指令微调阶段，我们使用包含图像和合成文本指令的查询进行训练，并修改正标题以对应与指令相关的图像特定方面。

3. 数据与训练策略

为了创建预训练数据集，我们使用负挖掘技术在Conceptual Captions数据集上选择负标题。在指令微调阶段，我们使用Visual Genome数据集，该数据集包含带有标题边界框的图像。我们过滤掉较大的边界框，并为每个图像随机选择四个边界框及其标题。然后，我们使用GPT-4生成与每个边界框标题相对应的指令。

四、实验结果与分析

1. 零样本评估

我们在MSCOCO和Flickr30K数据集上评估了ABC模型的检索能力。结果表明，ABC在MSCOCO图像到文本的检索任务中表现出色，超过了所有参数不超过80亿的CLIP模型。此外，ABC在大规模多模态嵌入基准测试中的分类和VQA任务上也取得了最佳性能。

2. 图像分辨率对测试时间的影响

我们发现，在测试时调整视觉编码器中使用的图像分辨率（令牌数）可以有效地权衡图像分辨率与推理速度。对于某些任务，如ObjectNet和ImageNet-A，性能与视觉编码器使用的分辨率密切相关。这表明现有低分辨率基准测试可能低估了能够原生利用高分辨率图像的模型的能力。

3. 温度与损失动态

温度超参数（τ）的设置对于对比训练至关重要。我们发现，在整个预训练过程中优化τ是至关重要的。使用随机负标题而不是我们选择的挖掘负标题会导致τ值非常接近0，从而导致数值不稳定、损失峰值和最终灾难性失败。

4. CtrlBench基准测试

为了评估ABC模型使用指令进行检索的能力，我们设计了CtrlBench基准测试。CtrlBench要求模型将文本指令与图像内容交错以进行正确检索。实验结果表明，ABC在CtrlBench上的性能显著优于其他多模态嵌入模型，表明ABC能够有效地利用自然语言指令来解决微妙且可能存在歧义的视觉检索问题。

5. VLM主干的选择

我们还探索了VLM主干的选择对多模态嵌入质量的影响。实验结果表明，我们选择的Qwen2-VL-7B主干产生了最佳结果，并且VLM主干在生成任务上的性能与其在对比训练后的性能密切相关。

五、讨论与未来工作

1. 预训练与指令微调的解耦

将预训练和指令微调这两个阶段分离是增加构建指令微调多模态嵌入模型可及性的重要步骤。预训练阶段计算成本高昂，而指令微调阶段则可以在短时间内完成。这允许我们快速迭代指令微调阶段，而无需从头开始预训练。

2. 预训练中的重要因素

我们发现，在适应VLM以输出多模态嵌入时，许多在训练CLIP模型时至关重要的因素也同样重要。特别是，精心选择的数据、批量大小和训练期间看到的样本数量都是重要的因素。

3. 更好的多模态基准测试

开发能够衡量模型利用自然语言指令和图像表示能力的基准测试是未来工作的重要方向。一个好的基准测试应该要求同时使用两种模态，并且仅使用图像或文本应该不足以完成任务。此外，指令应该是多样化的，以反映用户以多样和不可预测的方式表述自然语言任务的情况。

六、结论

我们介绍了ABC模型，这是一种使用VLM主干通过自然语言指令控制图像表示的多模态嵌入模型。ABC在多种多模态任务上取得了最佳的零样本结果，包括检索、分类和VQA。我们的多阶段训练过程将计算成本高昂的对比预训练与轻量级的指令微调阶段相分离，从而允许轻松迭代我们的模型。我们还探索了在适应VLM以输出多模态嵌入时最关键的因素，并设计了CtrlBench基准测试来衡量ABC模型使用指令完成微妙自然语言引导检索任务的能力。