CRG Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
对比区域指导:无需训练即可改善视觉语言模型的基础
北卡罗来纳大学教堂山分校
摘要:
突出显示图像中特别相关的区域可以通过引导模型更密切地关注这些感兴趣的区域来提高视觉语言模型(VLM)在各种视觉语言(VL)任务中的性能。例如,VLM 可以得到“视觉提示”,其中边界框等视觉标记描绘出关键图像区域;这种方法之所以流行,是因为它改进了需要区域级信息的任务。然而,当前可以结合视觉引导的 VLM 要么是专有的且昂贵的,要么需要对包含视觉提示的精选数据进行昂贵的培训。我们引入对比区域引导(CRG),这是一种无需培训的引导方法,使开源 VLM 能够响应视觉提示。 CRG 对比有视觉提示和没有视觉提示时产生的模型输出,剔除模型在没有产生正确答案所需信息(即模型的先验)的情况下回答时所揭示的偏差。 CRG 在各种 VL 任务中实现了实质性改进:当提供区域注释时,CRG 在 ViP-Bench 上将绝对准确度提高了 11.1%,ViP-Bench 是六种不同的基于区域的任务的集合,例如识别、数学和对象关系推理。我们还展示了 CRG 在空间推理方面的适用性,其中我们在 What'sUp 的最难设置上获得了高达 10% 的改进,以及在组合泛化方面的适用性 — 在 SugarCrepe 的两个具有挑战性的分割中,准确率分别提高了 11.5% 和 7.5% —生成图像的图像文本对齐,我们在 SeeTRUE 上提高了高达 8.4 AUROC 和 6.8 F1 点。对于没有提示参考区域的情况,我们还表明,CRG 允许我们在引用表达理解和短语基础基准(如 RefCOCO/RefCOCO+/RefCOCOg 和 Flickr30K Entities)中对对象检测模型提出的区域进行重新排序,其中当有多个提案可用时,准确率平均提高 3.2%。在我们的分析中,我们探索了 CRG 的替代掩蔽策略,展示了 CRG 如何影响模型对相关文本短语的概率,并评估区域指导强度的作用,以实证方式验证 CRG 的设计选择。
1 简介
大型视觉语言模型 (VLM) 的最新进展通过将大型语言模型 (LLM) 基于语言的推理能力与 ViT 等视觉编码器相结合,在处理多模式任务方面取得了重大进展 [12]。虽然大型 VLM(例如 LLaVA [31, 30]、BLIP [25]、PaLI [9] 等)在涉及整个图像的任务上具有越来越强的性能(例如,回答有关图像 [1, 14] 的问题或描述他们[57, 20]),他们经常在特定区域的基础上遇到困难,在对象间空间关系[19]和组合推理[17]上犯错误。这种无法接地的情况还导致模型无法遵循“视觉提示”[8,22,63,47,6,53],其中边界框等视觉标记覆盖在图像上,以帮助模型聚焦于重要区域。提高模型的视觉提示跟随能力有可能提高各种 VL 领域的性能,其中细粒度推理是关键,包括视觉问答、图像文本对齐、空间推理和引用表达理解。
例如,在图 1(a)中,基础 VLM 很难解决一个需要空间推理的问题,“碗在哪里?”,错误地回答说碗在椅子下面(而碗在椅子的右侧)椅子)。失败的部分原因可能是模型的先验,即使在缺乏相关信息的情况下,模型的输出也会偏向某些答案;例如,在图 1(d)中,我们看到即使物体被涂黑,模型仍然倾向于回答“在下面”,尽管事实上这个问题无法从遮罩图像中得到答案,因为物体下面的区域椅子被遮盖了。
图 1:不同视觉接地方法的比较。 (a) 使用基本 VLM 预测答案失败。 (b) 即使添加了边界框,开源 VLM 也会产生错误的答案。 (c) VLM 可以被训练来识别像边界框这样的覆盖物,但是这个过程涉及更新 VLM 并且成本高昂。 (d) 我们的方法 CRG 提供了一种无需训练即可纠正预测的方法。右图的相关对象区域被涂黑。在这里,即使没有视觉证据,模型的分布也反映了其回答“下方”和“左侧”的先验。通过分解这个分布,我们减少了先验,得到了正确的答案。
已经尝试了几种纠正这些错误和改善细粒度区域接地的方法,但需要昂贵的专有模型或额外的数据和培训。杨等人。 [53]引入了标记集(SoM)提示,这是一种在测试时将视觉标记直接覆盖到图像上的方法,帮助模型生成基于特定图像区域的答案。然而,SoM 仅在 GPT-4V 上进行了测试,表 1 和表 5 中的结果表明带有分段标记的 SoM 不能很好地迁移到开源 VLM。此外,如图 1 (b) 所示,当给模型一个覆盖有边界框作为标记的图像时,它预测问题的概率与使用图 1 (a) 中所示的原始模型时预测的概率类似。 )。 SoM 对 GPT-4V 的依赖导致了许多限制:首先,所使用的模型成本高昂且庞大,这使得它对于许多应用来说不切实际。事实上,由于“配额有限且缺乏 GPT-4V API”,作者仅提供了一小部分数据的结果。其次,该模型的训练数据和细节未知,这意味着它实际上可能已经使用额外的数据进行了微调以监督接地。这种微调已被证明可以提高开源 VLM 遵循视觉提示的能力:Cai 等人。 [6] 合成大量的微调数据,用于向图像添加箭头和边界框等视觉标记,以使开源 VLM 能够遵循视觉提示。虽然微调是有效的,如图 1 (c) 所示,微调后的模型能够以高置信度正确预测正确的介词,但它会产生大量的训练成本,尤其是随着模型规模的增大。为了解决现有方法的缺点(即依赖昂贵的培训或专有模型),我们提出了一种与各种现有模型兼容的免培训方法。我们还表明,我们的方法是对通过区域接地监督进行微调的模型的补充,即,它可以在使用视觉提示时进一步提高模型的性能。
具体来说,我们提出了对比区域指导(CRG),这是一种利用无分类器指导(CFG)[15, 44]的新颖策略,帮助开源 VLM 专注于特定区域并理解视觉标记,而无需额外训练。CRG 减少了给定的通过分解模型在没有关键区域的视觉证据的情况下的响应,来确定模型对某些答案的偏差(例如,图 1 中的“低于”)。直观上,分解后,最终答案将是当关键视觉信息被移除时变化最大的答案(即最依赖视觉信息的答案),而所有不依赖于视觉信息的答案重点区域将被下调。如图 1 (d) 所示,通过涂黑相关对象,CRG 揭示了一个先验知识,该先验知识使模型偏向错误答案“under”;换句话说,即使没有确定对象之间关系所需的相关视觉证据,模型也会回答“低于”。 CRG 然后将这个先验因素分解出来,修改答案分布,并提供正确的答案“正确”。至关重要的是,CRG 仅依赖于视觉提示,或者(如果未提供此类提示)访问对象检测模块来建议边界框;这些模块很容易在许多领域使用[59, 32]。
我们在 5 个不同领域的各种数据集和 2 个不同模型上评估 CRG,下面将更详细地描述。
1.视觉提示跟随。为了衡量 CRG 整合视觉提示的能力,我们在 ViP-Bench [6] 上进行测试,其中包含 6 种不同的任务类型,每种任务类型都需要理解细粒度的区域级推理:对象识别 (REC)、OCR、常识知识 (KNOW)、MATH、关系(REL)和语言生成(LANG)。例如,ViP-Bench 的 MATH 子集需要根据多个方程的图像求解数学方程,其中一个方程被突出显示或圈出,如图 2 (a) 所示。在这里,CRG 比 LLaVA-1.634B 模型平均准确率提高了 11.1%,与 GPT-4V 的最强基线具有竞争力。当应用于 ViP-LLaVA 时,CRG 还提供了实质性改进,表明它是监督方法的补充。
2.空间推理。我们还通过突出显示相关图像区域来衡量 CRG 在改善空间推理方面的作用(见图 1);在 What'sUp 空间推理基准 [19] 的最难设置上,采用 CRG 的 LLaVA-1.5-13B 的性能比基线高出 8.3%,事实上也超过了依赖于大量预训练的基于训练的方法同一型号的价格降低了15.4%。此外,在 What’sUp 最难的设置上,带有 CRG 的 LLaVA-1.6-34B 比 LLaVA-1.6-34B 基线提高了 10%。
3.构成概括。此外,我们表明 CRG 更好的基础可以改善视觉理解和推理。我们发现 CRG 有助于解决当前视觉语言方法的一个主要限制:对语言成分进行分析的能力较差。模型通常无法区分两个相似的句子,例如“a plant on a house”和“a house on a plant”[50,34,40]。我们表明,使用 CRG,LLaVA-1.6-34B 在 SugarCrepe [17](视觉语言任务中具有挑战性的组合性基准数据集)上的性能比没有 CRG 的模型提高了 11.5% 和 7.5%,比没有 CRG 的模型提高了 4.7% 和 3.6%在 SugarCrepe 的两个具有挑战性的设置上,LLaVA-1.634B 超过了最强的 GPT-4V 基线。
4.从文本到图像生成模型对图像进行评估。我们证明 CRG 还可以评估生成的图像;当应用于 Yarom 等人时。 [55] 的 DrawBench、EditBench 和 COCO-t2i 分割,CRG 将模型识别匹配图像文本对的能力平均提高了 8.4 AUROC 和 6.7 F1 点。
5.引用表达理解和短语基础的重新排名。由于其粒度,CRG 可用于对来自对象检测器的边界框提议进行重新排序,以查找与给定文本相关的边界框提议(示例见图 2 (d));在 RefCOCO、RefCOCO+ 和 RefCOCOg [20, 35] 引用表达理解任务和 Flickr30K Entities 短语基础任务 [38] 上,应用于 LLaVA-1.5-13B 的 CRG 比基线 LLaVA-1.5- 提高了高达 3.2% 的性能13B 对具有多个边界框的情况进行重新排序。
我们首先对 CRG 的每个组成部分进行了详细分析。我们的研究结果强调,CRG 的遮蔽策略(即分别遮蔽每个对象)被证明是最有效的,并且优于遮蔽区域粒度不同的替代对比方法,例如遮蔽整个图像或遮蔽对象与分割掩模。我们的分析还表明,当前的模型无法遵循使用其他不使用对比度的流行视觉提示策略(例如仅覆盖边界框和分割掩模)的提示。此外,我们还研究了 CRG 对与特定区域对齐的真实文本概率的影响,确认它增加了正确文本的可能性并惩罚了不正确的文本。这凸显了 CRG 在增强模型可解释性方面的精确性。
最后,我们的实验证明,引导强度的默认值,即模型应该依赖对比度的程度,在不同的任务中一致地实现高性能,验证了我们配置的稳健性。
2 Related Work
VLM 的视觉提示。最近的几个研究方向研究了通过以不同方式操纵视觉输入来提示 VLM:(i) 在视觉输入中结合可学习的软标记以进行参数高效的微调 [2, 21],(ii) 连接图像序列作为新模型的演示任务 [5, 4],以及 (iii) 通过将视觉标记(例如,掩模/框/圆圈等)覆盖到视觉输入上来接地区域 [54, 58, 47]。我们的工作属于第三类,使用视觉引导来接地。杨等人。 [53]提出了标记集(SoM)提示,其中使用分割模型将图像划分为多个区域,并且每个区域都用数字标记进行标记,这改善了 GPT-4V [37] 的视觉基础。然而,在我们的实验中,详见秒。 4.2 和 4.5.1 我们确认了过去的发现 [6],即这种视觉提示不适用于 LLaVA 等公共 VLM。蔡等人。 [6] 使用不同的视觉标记进行指令调整,以便 VLM 可以更好地遵循用户输入的视觉提示。我们的工作不是依赖专有模型或微调,而是通过屏蔽图像区域和对比模型分布来引发 VLM 中的视觉基础,即无需额外的训练或数据。此外,我们表明我们的工作与 Cai 等人使用的微调方法是互补的。 [6],组合时获得额外的改进。
自回归模型的上下文引导采样。不同领域的几项工作提出了自回归模型的上下文引导采样,以纳入额外的上下文。引导模型可以被认为是从条件模型和无条件模型的 logit 差异中采样标记: logit(y|c, x) − logit(y|x) 其中 x 是输入,y 是输出,c 是上下文(更多详细信息请参阅第 3 节)。对于文本生成,Shi 等人。 [46]通过对比条件和无条件语言模型的逻辑来扩展对比解码[27]。 CFG 也已应用于多模态设置:对于自回归图像生成,Gafni 等人。 [13]使用无分类器指导[15]来合并上下文输入(即文本和分割图)。对于图像字幕,Kornbilith 等人。 [23]使用无分类器指导(CFG),对比图像字幕器和语言模型的逻辑。同时,Leng 等人。 [24] 和赵等人。 [62]使用CFG通过向整个图像添加高斯噪声或向文本输入添加对象检测结果来提高VLM的忠实度。虽然所有这些将 CFG 与图像相结合的现有方法都可以操纵整个图像(通过删除 [23] 或添加噪声 [24]),但我们的工作 CRG 的不同之处在于专注于细粒度指导,明确地基于特定图像区域,即在子图像级别操作。
视觉模型存在偏见和缺乏基础。 CRG 的好处来自于消除了 VL 模型和任务中存在的偏差,从而无需考虑相关图像区域,或者在某些情况下完全无需考虑图像,即可获得正确的响应。这种偏见在过去的工作中已有详细记录 [60,14,10]。其他工作指出,即使正确回答问题,VQA 模型也经常关注图像的不相关区域,并试图将模型规范化以关注相关区域 [45,52,33]。沿着这些思路,Ying 等人。 [56]引入了一系列损失来减轻模型“因错误原因而正确”的情况,即答案是正确的,但基于图像的不相关区域,其中一些损失使用人工绘制的边界框。 CRG 还旨在引起人们对相关图像区域的注意,但以无梯度的方式实现,并且可以使用自动检测到的边界框进行操作。
3 方法
3.1 背景:VLM 的视觉提示
在我们的设置中,参数为 θ 的视觉语言模型 (VLM) 将图像 I ∈ RH×W ×3 和 n 个标记的文本 X = [x1, ..., xn] 作为输入,并输出文本 Y = [y1, ..., ym] 带有 m 个标记。当生成输出文本 Y 时,我们根据以输入 I 和 X 为条件的概率分布自回归生成标记。在时间 t 时,标记 yt 的概率为:
其中 logitθ 是 token yt 的非标准化对数概率,即在 softmax 之前。最近的工作[47,53,6]引入了视觉提示方法,通过叠加视觉标记(例如,边界框、掩模和箭头)来突出显示特定区域来增强图像。虽然过去的工作发现视觉提示可以改善 GPT-4V [53] 或专门针对具有视觉提示的图像进行训练的 VLM [6] 的视觉基础,但我们发现公开可用的基础 VLM 在我们的实验中通常会忽略此类视觉提示(表 1, 2、3)。
3.2 VLM 中视觉定位的对比区域引导 (CRG)
我们引入对比区域指导(CRG),这是一种免训练的视觉基础方法,通过扩展无分类器指导(CFG)来指导任何 VLM 聚焦于图像中的特定区域[15]。受到视觉特征重要性研究的启发 [42, 56],我们通过删除区域时 VLM 的输出分布如何变化来衡量图像区域的重要性,并使用分布之间的对比度来引导 VLM 关注特定区域,如图 2 左侧所示。具体来说,我们通过将图像 I 与另一图像 I′ = mask(I, b) 进行对比而得出的概率分布对输出进行采样,其中特定区域 b 中的像素被屏蔽带有黑色像素:
这里,α是区域引导强度参数,控制区域b上的焦点强度。 α越大,区域引导越放大;例如,α = 1 对该区域赋予较高的权重,而 α = 0 将方程简化为标准解码。我们遵循先前的工作 [46, 36],对所有设置使用 α = 1。
图 2:左图:我们的方法对比区域指导 (CRG) 的图示,它指导 VLM 关注特定的感兴趣区域 (ROI)。右图:CRG 在各种 VL 任务中的应用:(a):当回答带有 ROI 的视觉问题时,CRG 引导 VLM 回答有关特定区域的问题。 (b):即使没有提供特定区域,我们也可以利用对象检测器来查找重要对象并引导 VLM 聚焦于对象。 (c):对于图像-文本对齐,CRG 指导模型生成与图像中发现的对象及其关系相关的文本,从而提高正确文本与错误文本的概率。 (d):CRG 还可以通过找到提供最大对比度的掩模来帮助 VLM 从一组多个区域建议中找到与给定文本相对应的区域。
如图2所示,CRG适用于许多VL任务,包括图像条件文本生成以及图像-文本和区域-文本对齐任务。当如图 2(a)所示给出感兴趣区域时,我们可以引导 VLM 在生成答案时关注该区域。当没有给出如图 2 (b) 和 (c) 所示的特定区域时,我们可以使用来自文本条件对象检测器(例如 GroundingDINO [32])的区域建议,并引导 VLM 关注建议区域。我们通过获取所有名词短语(图 2 (b) 中的“dog”和“table”,以及图 2 (c) 中的“dog”和“car”),找到它们相应的边界框,然后将其涂黑图像中的物体。然后,我们要么在 VQA 中生成答案(例如,图 2 (b)),要么对句子进行强制解码并检索其概率(例如,图 2 (c))。对于 NP 有多个候选边界框的情况,我们应用以下重新排序策略。对于每个边界框提案,我们将相应的图像区域涂黑,并使用等式计算给定文本或短语的分数。 (3)。我们选择在变黑时实现最高对比度的区域。如图2(d)所示,移除左边的狗会导致句子“闭着嘴的狗”的概率发生最大的变化,从而表明与所描述的文本有很强的关联性。
4.实验和结果
我们展示了 CRG 在各种视觉语言任务中的有用性。首先,我们证明 CRG 可以解锁 ViP-Bench [6] 上 VLM 的视觉提示跟随功能(第 4.2 节)。接下来,我们展示了 CRG 在三个数据集上改善 VLM 中图像文本对齐的有效性(第 4.3 节):测量空间理解的 What'sUp [19]、测量组合泛化的 SugarCrepe [17] 和 SeeTRUE [55]其图像来自文本到图像生成模型。此外,我们表明 CRG 还可以用作四个数据集上视觉基础任务的重新排序器:RefCOCO、RefCOCO+ [20]、RefCOCOg [35] 和 Flickr 30K Entities [38](第 4.4 节)。最后,我们还在(第 4.5 节)中提供了三种消融研究,比较不同的区域对比方法,评估正确和不正确文本的概率变化,并分析区域引导强度 α 的影响。
4.2 视觉提示跟随评价
ViP-Bench[6]由303个图像-问题对组成,专门设计用于综合评估视觉提示跟随能力,分为六类:对象识别(REC)、光学字符识别(OCR)、知识(KNOW)、数学(MATH)、对象关系推理 (REL) 和语言生成 (LANG)。我们报告默认分割的性能 - 合成视觉提示 - 由紧密的边界框组成。除了论文中提供的基线之外,我们还对我们的模型应用了 Set-of-Mark [53] (SoM) 方法。具体来说,我们使用参考边界框通过 SAM [22] 生成分割掩模,然后覆盖掩模并将数字附加到图像,如 [53] 中所述。为了进行公平的比较,我们将询问边界框的问题转换为询问 SoM 期望的数字的问题。详细信息参见附录A.3。
为了实现 SoM 提示,我们通过正则表达式将文本提示中任何提及的“在 {color} 矩形内”转换为“在 {number} 中”。例如,问题“红色矩形内的数字和紫色矩形内的数字是否相同?”变成“0 和 1 中的数字相同吗?”,其中 SoM 的图像删除了边界框,而是在对象上包含了带有编号的覆盖层。我们将逆过程应用于输出,将数字的提及转换回答案中带有颜色的边界框,以与原始评分方法兼容。例如,答案“是的,0 和 1 中的数字是相同的。”被转换为“是的,红色矩形内的数字和紫色矩形内的数字是相同的”。
CRG 解锁视觉提示跟随,匹配微调模型。我们在表 1 中列出了结果。我们注意到基本模型 LLaVA-1.5-13B 已经超越了几个基线,包括微调的视觉提示模型,如 Shikra [7] 和 GPT4ROI [61],以及其他著名的 VLM,如 Qwen -VL-Chat [3] 和 InstructBLIP [11]。尽管如此,在 LLaVA-1.5-13B 模型上应用 CRG 后,REC、OCR 和 MATH 类别分别进一步提高了 2.1%、1.3%、3.8%,平均提高了 1.6%。虽然带有 CRG 的 LLaVA-1.5-13B 落后于 ViP-LLaVA-13B [6],后者使用 LLaVA-1.5-13B 作为主干,但使用精心策划的视觉提示数据进行训练,但 LLaVA-1.5-13B+CRG 和ViP-LLaVA 在 OCR 和数学类别中显着缩小。这表明 CRG 可以通过对比图像和删除视觉提示区域的版本来帮助模型遵循视觉提示。
表 1:ViP-Bench [6] 结果。 * 表示来自 [6] 的结果,† 表示使用视觉提示数据微调的模型。对于我们运行的每个模型,我们使用 ViP-Bench [6] 基于 GPT-4 的评估报告 5 次运行的平均值和标准差,并粗体显示最佳提示或指导策略。
CRG 还可以通过视觉提示帮助模型进行微调。我们的研究结果还表明,CRG 通过其分布之间的对比,对视觉提示的微调模型(即 ViP-LLaVA)进行了补充,进一步将 REC、MATH 和 REL 等类别的性能提高了 0.5%、0.4%、分别为 0.1% 和 0.1%,平均提高 0.8%。
CRG对于更强的VLM主干更有帮助。当我们将 CRG 应用到 LLaVA-1.6-34B 模型时,改进更加明显,性能平均提高了 11.1%。尽管 LANG 下降了 3%,但其他类别的改进幅度在 9.2% 至 18.8% 之间,超过了之前的所有型号。值得注意的是,LLaVA-1.6-34B+CRG 在除 LANG 之外的所有类别中也超过了 ViP-LLaVA-13B,尽管它从未接受过任何视觉提示数据的训练。这强调了 CRG 在无需额外训练的情况下扩展模型的效率。
标记集提示 [53] 对基于 LLaVA 的模型无效。最后,我们观察到标记集 (SoM) 通常会降低基于 LLaVA 的模型的性能,这表明这种适用于专有模型的视觉提示策略不能很好地转移到我们研究的开源 VLM 中。一个潜在的原因是 SoM 需要 OCR 功能,在这一领域,基于 LLaVA 的模型与 GPT-4V 相比表现较差(没有 CRG 的 LLaVA-1.6-34B 为 28.7%,而 GPT-4V 为 48.5%)。虽然我们观察到将 SoM 应用到 LLaVA-1.5-13B 时整体性能有所提高,但这完全是由识别性能的提高驱动的,识别性能提高了 3%。在所有其他类别中,SoM 会降低性能,有时甚至会大幅降低(例如,REL 下降 16.2%)。同样,我们观察到,将 SoM 应用于 ViP-LLaVA-13B 和 LLaVA1.6-34B 会降低除 LLaVA-1.6-34B 的 OCR 和 KNOW 之外的所有类别的准确度,使 ViP-LLaVA 的性能平均降低 6.8% 和 3%分别为-13B和LLaVA-1.6-34B。
SoM:Set-of-Mark (SoM),用于提升大型多模态模型(如GPT-4V)的视觉定位能力。通过使用现成的交互式分割模型将图像划分为不同粒度的区域,并在这些区域上覆盖一组标记(如字母数字、掩码、框),SoM方法使GPT-4V能够回答需要视觉定位的问题。实验表明,SoM显著提高了GPT-4V在细粒度视觉和多模态任务上的表现,例如在零样本设置下,SoM使GPT-4V在RefCOCOg上超越了最先进的完全微调的指代分割模型。
为了实现 SoM 提示,作者通过正则表达式将文本提示中任何提及的“在 {color} 矩形内”转换为“在 {number} 中”。例如,问题“红色矩形内的数字和紫色矩形内的数字是否相同?”变成“0 和 1 中的数字相同吗?”,其中 SoM 的图像删除了边界框,而是在对象上包含了带有编号的覆盖层。我们将逆过程应用于输出,将数字的提及转换回答案中带有颜色的边界框,以与原始评分方法兼容。例如,答案“是的,0 和 1 中的数字是相同的。”被转换为“是的,红色矩形内的数字和紫色矩形内的数字是相同的”。
4.3 图文对齐评估(空间理解、组合性、生成图像评估)
CRG 生成的区域文本分数可用于测量图像和文本片段之间的对齐情况。我们将其应用于通过对答案进行评分来回答有关空间理解的问题,应用于组合推理,我们使用 CRG 的分数来决定可能的描述,以及评估生成的图像,我们对图像描述和模型生成的图像之间的匹配进行评分。
4.3.1 空间理解评估
What'sUp [19] 是评估 VLM 空间理解能力的基准,有 820 张图像,显示两个家庭物体(例如椅子和碗等)之间的明确空间关系,其中图像仅包含这两个物体四种不同的空间关系(见图 1 和 2 (b))。如图 2 (b) 所示,我们提取两个对象的边界框。我们将我们的方法与性能最佳的基线进行比较,包括 FLAVA [48]、CLIP [39] 和 GPT-4V [37]。 CRG 提高了 VLM 中的空间理解。结果(如表 2 所示)表明,当应用于 LLaVA-1.5-13B 时,CRG 始终提高了所有设置的准确度,个人和成对设置的准确度提高了 3.6%,4 人设置的准确度提高了 8.3%。值得注意的是,当提示边界框时,使用 LLaVA-1.5-13B 的 CRG 再次优于 ViP-LLaVA-13B,尽管后者经过了广泛的额外训练。在 LLaVA-1.6-34B 上,CRG 还提高了所有设置的准确性。对于最难的“Set of 4”设置,其中涉及将四个介词准确链接到其相应的图像,CRG 将准确性提高了 10%。有趣的是,我们发现将边界框应用为图像上的视觉标记(“+ bbox 覆盖”)并没有提高这两个模型的性能,这表明视觉提示不是基础 VLM 已经可以做到的事情,从而说明了 CRG 的有效性。
4.3.2 视觉-语言组合性评价
SugarCrepe [17] 数据集评估了 VLM 的组合推理能力,强调了这样一个事实:当对象或属性交换时,它们通常难以正确识别实例。重点关注子集 SWAP-OBJ 和 SWAP-ATT——当前模型最难处理的两个子集 [17]——我们在 [17] 中包括表现最好的模型,包括 CLIP [39] 和 GPT-4V [37] 。
CRG 改进了 VLM 的组合泛化。如表 2 所示,我们的观察揭示了 CRG 增强原始模型性能的一致模式。将 CRG 应用于 LLaVA-1.5-13B 可以使 SWAP-OBJ 和 SWAPATT 子集分别提高 6.5% 和 7.4%,而对于 LLaVA-1.6-34B,这两项任务分别提高 11.5% 和 7.5%。值得注意的是,将 CRG 应用于 LLaVA-1.5-13B 的性能平均超过 GPT-4V 1.3%,表明 CRG 在提高模型的组合理解方面的有效性。
4.3.3 从文本到图像生成模型对图像的评估
接下来,我们将展示 CRG 如何应用于我们生成图像的文本到图像场景。为此,我们采用元评估基准 SeeTRUE [55] 来评估模型确定给定图像-文本对是否对齐的能力。方法。该数据集包含真实文本和合成图像,包括来自 DrawBench [43]、EditBench [51] 和 COCO [28] 的示例,分别包含 1,311、3,827 和 1,791 个图像文本对。作者为这三个基准收集了每个示例的 3 个二元判断的人工注释。我们跟随作者使用 ROC 曲线下面积 (AUROC) 来衡量性能,并另外包括 F1,我们通过在分数上取阈值并将高于阈值的实例标记为正来计算 F1。由于这三组没有可用于阈值调整的验证或训练数据,因此我们将阈值设置为模型分配给每个数据集的所有示例的平均分数。
CRG 有助于测量文本和生成图像之间的对齐情况。我们观察到类似的趋势,添加 CRG 可以极大地提高性能,应用于 LLaVA-1.5-13B 时,AUROC 平均提高 7.3 点,F1 点平均提高 5.4 点;对于 34B 模型,AUROC 平均提高 8.4 点,F1 点提高 6.7 点。 CRG 还可以与 ViP-LLaVA 结合使用,使 AUROC 提高 8.7 分,F1 提高 6.2 分,再次补充了所学的视觉提示跟踪。我们还观察到,即使使用微调的 ViP-LLaVA 模型,直接视觉提示模型(“+ bbox 覆盖”)也不会改善结果。这验证了 CRG 评估模型生成图像的有效性和鲁棒性。
4.4 指代表达理解和短语基础的评估
最后,我们评估 CRG 在指称表达理解(REC)(即定位句子所指的对象)和短语基础(即定位短语所指的多个对象)方面的能力。具体来说,我们通过重新排列边界框提案以使顶部边界框与给定短语匹配来测试模型是否可以在给定文本描述的情况下分配正确的边界框。我们包括三个经典的基础基准:用于 REC 的 RefCOCO、RefCOCO+ [20] 和 RefCOCOg [35],以及用于短语基础的 Flickr30K Entities [38]。对于每个提案,我们根据模型叠加在图像上时生成短语的概率为边界框分配分数。根据先前的工作 [32, 26],我们使用 precision@0.5 评估方法,如果预测框与参考框的 IoU 大于 0.5,则我们认为预测框是正确的。
CRG 改进了 VLM 中的区域文本对齐。在表 4 中,CRG 在最高预测精度方面超越了 GroundingDINO,并且在除 RefCOCO+ testB 之外的所有场景中都表现出了优于使用 LLaVA 概率的性能。与 GroundingDINO 的最高预测相比,我们平均提高了 2.73%,与 LLaVA-1.5-13B 的重新排名相比,平均提高了 0.8%。需要注意的是,在只有单个边界框可用的情况下,重新排名是不可行的,我们默认选择单个边界框。因此,我们还显示了存在多个提案的数据子集的结果,该子集平均占数据的 28.6%。如表 4 底部所示,CRG 显示了更大的改进,例如,RefCOCO、RefCOCO+ 和 RefCOCOg 测试分割平均提高了 3.2%、1.7% 和 3.9%,Flickr30K 实体提高了 5.8%测试集 t。这表明我们的方法将短语链接到最相关的图像区域的价值。
4.5 分析和消融研究
接下来,我们分析 CRG 的设计选择,包括不同区域指导策略的比较(第 4.5.1 节)、分析定位文本的概率转移以了解 CRG 为何有效(第 4.5.2 节)以及区域指导强度 α(第 4.5.3 节)。
4.5.1 不同地区指导策略
我们研究了不同区域引导策略的影响,包括将原始图像与另一图像(例如,不同区域被涂黑的图像)进行对比,以及在 What'sUp 基准上叠加视觉标记(例如,边界框和分割掩模),前提是:数据集中的每个场景恰好包含两个不同的对象,以进行可靠的分析。在这里,我们使用LLaVA-1.6-34B。如图 3 顶部所示,除了 (e) 中所示的为每个对象单独应用边界框的方法之外,我们还应用了四种不同的掩蔽方法。首先,考虑到对象的不同组合,我们在 (a) 中涂黑其中一个对象(我们取每个对象遮罩结果的平均值),并在 (b) 中对两个对象应用组合遮罩。我们还考虑使用图 3 (c) 中的 Grounded-SAM [41] 用分割掩模进行涂黑,其动机是成功地覆盖此类掩模作为视觉提示 [53],并将 (d) 中的整个图像涂黑作为消融,之前已应用于 CFG [23]。我们主要感兴趣的是找到遮罩的最佳策略,尤其是在存在多个对象的情况下,以及遮罩粒度的影响。
仅屏蔽相关区域很重要。结果详见表 5。与其他屏蔽策略相比,我们单独屏蔽每个对象的方法实现了卓越的性能。特别是,我们的方法(e)比涂黑组合掩模(b)和涂黑整个图像(d)表现更好,这表明精确瞄准必要区域进行删除以防止意外排除附加信息的重要性。当在(c)中使用分段掩模进行遮蔽时,我们观察到,虽然这种方法在其他遮蔽策略中产生了有竞争力的结果,但它仍然比我们的主要方法(遮蔽分离)更糟糕。这表明模型可能正在使用分割掩模保留的对象形状。
简单地叠加没有 CRG 的视觉标记对于预训练的 VLM 来说是无效的。最后,我们探索了用于直接视觉提示的不同视觉标记,包括边界框 (f) 和分割掩模 (g),这已被证明对训练模型有效 [49, 6],如图 3 所示。最后,我们还在 (h) 中使用 SoM [53] 进行实验。表5中的结果表明LLaVA-1.6-34B模型没有遵循这样的视觉提示,因为三种叠加方法的性能比使用原始图像更差。 SoM 性能下降也与表 1 中的结果相呼应。如图 3 所示,叠加并不能保证模型将聚焦于感兴趣的区域(或与之形成对比),因为它仍然可以关注该区域之外的任何虚假信息,就像在原始图像中一样。与全黑图像对比,通过在减去逻辑值时将其分解出来,可以减少这种虚假信息。因此,我们展示了我们选择的停电策略在帮助模型遵循视觉提示方面的有用性。
4.5.2 量化 CRG 背后的直觉:接地文本的概率对比
为了更好地理解为什么 CRG 可以改善视觉基础,我们分析了 CRG 在 SugarCrepe 上的行为,该行为测量成分泛化。在这里,我们研究了应用 CRG 时与建议区域相关的关键词的概率分布如何变化。在 SugarCrepe 中,每张图像都有一个正确的标题和一个不正确的干扰标题。在SWAP-ATT中,干扰物是通过交换场景中物体的视觉属性而形成的;例如在图4(a)中,“灰狗”改为“黑狗”。我们将正确标题中的属性短语视为正确单词 WC(例如“灰狗”),将不正确标题中的短语视为不正确单词 WI(例如“黑狗”)。如果 CRG 按预期运行,CRG 应该增加模型正确单词 WC 的概率,因为 CRG 强调图像中正确的对象,同时降低错误单词 WI 的概率,而错误单词 WI 无法从区域推断出来。
图 4:(a) 显示了来自 SugarCrepe SWAP-ATT 的正确和错误文本的示例。正确的文本包含反映在图像中的正确单词 WC(即灰狗),而不正确的文本则交换属性以形成不正确的单词 Wi(即黑狗)。我们比较(b)中LLaVA-1.6-34B和LLaVA-1.6-34B + CRG分配给所有正确单词WC和所有错误单词WI的平均概率。
CRG 放大了正确文本的概率并降低了错误文本的概率。我们使用 LLaVA-1.6-34B 并计算 WC 和 WI 的平均概率。我们将单独从 LLaVA-1.6-34B 获得的概率与通过应用图 4 (b) 中的 CRG 获得的概率进行比较。我们看到,随着 CRG 的出现,正确短语的概率略有增加,而错误短语的概率却有所下降。这表明模型遵循视觉提示并关注正确的图像区域,以更好地区分正文本和负文本,并且能够将图像中的这些区域与文本的相关部分联系起来。因此,CRG 通过改善图像与文本中相关标记之间的匹配,以可解释的方式提高性能。
4.5.3 区域引导强度α的影响
我们分析了区域指导强度α对各种任务的影响。正如第 2 节中所解释的。 3、式中的α。 (3): softmax[(1 + α) · logitθ(yt|I, X, y<t) − α · logitθ(yt|mask(I, b), X, y<t)] 控制 CRG 引导的强度VLM 重点关注该地区 b.我们说明以 0.1 的步长将 α 从 0(从原始图像常规解码)调整到 1 的效果。图 5 显示了具有不同 α 的不同数据集的准确性(以及 SeeTRUE 的 AUROC)。我们观察到一个明显的趋势,将 α 从 0 增加到 1 可以提高性能,这表明专注于所提供的区域对任务更有利。基于这一发现,我们进一步尝试将 a 值增加到 10,如图 5 的底部部分所示。虽然对于某些任务(例如 SugarCrepe),设置更积极的权重可以提高性能,但没有明显的趋势其中单个值可以实现最佳性能。因此,我们主张将 α = 1 作为默认值,如果存在验证集,则可以选择调整该默认值。
5 结论
我们提出了 CRG,这是一种易于使用且无需培训的方法,无需培训即可提高 VLM 的视觉提示跟随能力。 CRG 在视觉提示跟随方面提供了显着改进,并且在缺乏区域注释的基本事实的广泛视觉语言任务中有效:CRG 通过采用重新排序来改进生成图像的空间推理、构图概括和图像文本对齐由对象检测模型识别的区域的策略。我们进一步探索不同的区域引导策略,旨在为视觉提示技术的未来发展奠定基础。未来工作的一个方向包括视觉和文本上下文的整合:我们的研究重点是通过视觉输入来指导模型,同时开展的工作[62]提出了通过在标题中添加文本上下文来进行指导。我们相信这些方向是相辅相成的,并提出了一种增强多模式提示跟随策略的组合方法。