2022: Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

最新推荐文章于 2025-03-26 20:24:13 发布

weixin_42653320

最新推荐文章于 2025-03-26 20:24:13 发布

阅读量1.5k

点赞数

分类专栏：视觉语言融合文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_42653320/article/details/125703061

版权

本文提出了一种名为X-VLM的多粒度视觉语言预训练方法，旨在解决现有方法在对象级和图像级对齐上的局限性。X-VLM通过学习文本与图像中不同粒度的视觉概念对齐，提高了视觉推理任务的性能，如VQA和NLVR2，且在效率上优于现有模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

大多现有的视觉语言预训练依赖通过对象检测器提取的以对象为中心的特征，并对提取的体征与文本进行细粒度对齐。这些方法对学习多个对象间的关系具有挑战性。为此，我们提出一种新的方法--X-VLM来执行多粒度视觉语言预训练。学习多粒度对齐的关键是在给定相关文本的图像中定位视觉概念，同时将文本与视觉概念对齐，其中对齐是多粒度的。实验结果表示X-VLM有效利用了学习到的多粒度对齐到许多下游的视觉语言任务，并始终由于最先进的方法。

一、介绍

现有的学习视觉语言对齐的方法可以分为两种，如图1，大多数检测图像中的对象，并将文本与细粒度（以对象为中心）的特征对齐。它们要么利用预训练好的对象检测器，或者在预训练过程中进行实时对象检测。其它方法不依赖于目标检测，而是只学习文本和图像的粗粒度特征之间的对齐。

细粒度和粗粒度的方法都有缺点，对象检测识别图像中所有可能的对象，其中一些对象可能与文本无关。以对象为中心的特性不能轻易地表示多个对象间的关系，如"man crossing the street"。此外，预先定义适合于下游任务的对象类别也具有挑战性。另一方面，粗粒度方法不能有效地学习视觉与语言之间的细粒度对齐，如对象级，这已被证明对一些下游任务很关键，如视觉推理、视觉接地和图像标注。

理想情况下，我们希望VLM在预训练中学习视觉与语言之间的多粒度对齐，这并不局限于对象级或图像级，并利用学习到的对齐到下游的V+L任务。而现有方法不能满意地处理视觉和语言之间的多粒度对齐。

本文，我们提出通过将文本描述与图像中相应的视觉概念对齐来进行多粒度视觉语言的预训练。以图1为例，我们有以下数据用于训练：1)描述整个图像的图像标注；2）区域注释，如man wearing backpack等，每个注释都与图像中的一个区域有关，而以前的方法大致将区域描述与整个图像对齐；3）对象标签，如packback，这被以前的方法用来训练对象检测器。我们重新制定数据，这样一个图像可能有多个边界框，并且一个文本直接与每个框中的视觉概念相关联。这种视觉概念可能是一个物体、一个区域或图像本身，如图1(c)的例子。通过这样做，我们的方法学习了与不同文本描述相关的不同的视觉概念，这些概念也不限于对象级或图像级。

我们的多粒度模型--X-VLM，由一个图像编码器用来产生图像的视觉概念（包括图像本身）的表示，一个文本编码器，和一个跨模态编码器用来在视觉特征和语言特征之间进行交叉注意，以学习视觉语言对齐。学习多粒度对齐的关键是通过以下优化X-VLM：1）通过结合框回归损失和共同损失的交集，在给定相关文本的图像中定位视觉概念；2）同时将文本与视觉概念对齐，如通过对比损失，一个匹配损失和一个掩码语言建模损失，其中对齐是多粒度的，如图1(c)所示。在微调和推理中，X-VLM可以利用学习到的多粒度对齐来执行下游的V+L任务，而无需在输入图像中添加便边界框注释。

我

最低0.47元/天解锁文章