论文速读|Contrastive Region Guidance:Improving Grounding in Vision-LanguageModels WithoutTraining.ECCV24_contrastive region guidance: improving grounding i-CSDN博客

本文链接：https://blog.csdn.net/Romaga/article/details/145360787

论文地址：
Contrastive Region Guidance: Improving Grounding in Vision-Language Models Without Training
https://arxiv.org/abs/2403.02325
代码地址：https://contrastive-region-guidance.github.io/
Supplementary Information：https://doi.org/10.1007/978-3-031-72986-7_12
（https://static-content.springer.com/esm/chp%3A10.1007%2F978-3-031-72986-7_12/MediaObjects/638302_1_En_12_MOESM1_ESM.pdf）
bib引用：

@misc{wan2024contrastiveregionguidanceimproving,
      title={Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training}, 
      author={David Wan and Jaemin Cho and Elias Stengel-Eskin and Mohit Bansal},
      year={2024},
      eprint={2403.02325},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2403.02325}, 
}

InShort

提出对比区域引导（CRG）方法，在无需训练的情况下提升视觉语言模型（VLMs）对特定图像区域的关注和理解能力，有效改善多种视觉语言任务的性能。

研究背景
- 视觉语言模型现状：大型VLMs在处理涉及整幅图像的任务时表现出色，但在区域定位和理解视觉提示方面存在困难，限制了其在细粒度推理任务中的性能。
- 现有方法局限：现有改进区域定位的方法，如Set-of-Mark（SoM）提示和微调，存在依赖专有模型、训练成本高的问题。
相关工作
- 视觉提示：包括在视觉输入中融入可学习软令牌、连接图像序列、叠加视觉标记等，SoM提示在专有模型上有效，但不适用于开源VLMs。
- 上下文引导采样：在不同领域用于结合额外上下文，CRG与之不同，专注于细粒度区域引导，采用硬掩码。
- 视觉模型的偏差和定位问题：VL模型存在偏差，VisFis通过损失函数解决，CRG以无梯度方式利用自动检测的边界框解决该问题。
方法
- 视觉提示基础：VLM根据输入图像和文本生成输出文本，视觉提示通过叠加标记突出特定区域，但开源VLM通常无法有效利用。
- 对比区域引导（CRG）：基于分类器自由引导（CFG），通过对比移除特定区域前后模型输出分布的变化，引导VLM关注特定区域。当有感兴趣区域时，直接引导模型；无特定区域时，借助目标检测器获取区域建议并引导模型。
实验结果
- 视觉提示跟随能力：在ViP - Bench上，CRG显著提升LLaVA模型的性能，与微调模型相当，且对更强的VLM骨干模型提升更明显，而SoM提示对基于LLaVA的模型效果不佳。
- 图像文本对齐：在空间理解（What’sUp）、组合推理（SugarCrepe）和生成图像评估（SeeTRUE）任务中，CRG均提高了模型性能，直接视觉提示则效果不佳。
- 指代表达理解和短语定位：在相关基准测试中，CRG通过重新排序边界框建议，提高了区域与文本的对齐精度。
- 区域引导策略分析：单独屏蔽每个对象的策略优于其他屏蔽策略，简单叠加视觉标记对预训练VLM无效，CRG的屏蔽策略有助于模型关注感兴趣区域。
研究局限：CRG运行模型两次带来额外计算成本，在无视觉标记时依赖目标检测器，未来可探索更好的视觉编码器。
研究结论：CRG无需训练即可提升VLMs的视觉提示跟随能力，在多种视觉语言任务中效果显著，为未来视觉提示技术发展奠定基础，未来可结合视觉和文本上下文进一步优化。

摘要

突出图像中特别相关的区域可以通过引导视觉语言模型（VLMs）更密切地关注这些感兴趣的区域，从而提高其在各种视觉语言（VL）任务中的性能。例如，可以给 VLMs 一个“视觉提示”，其中诸如边界框之类的视觉标记描绘出关键图像区域。然而，目前能够结合视觉引导的 VLMs 要么是专有的且昂贵，要么需要在带有视觉提示的精选数据上进行昂贵的训练。我们引入了对比区域引导（CRG），这是一种无需训练的引导方法，使开源 VLMs 能够响应视觉提示。CRG 对比有和没有视觉提示时产生的模型输出，排除模型在没有产生正确答案所需信息的情况下回答时所揭示的偏差。CRG 在各种 VL 任务中实现了显著的改进：当提供区域注释时，CRG 在 ViP-Bench 上的绝对准确率提高了高达 11.1%，ViP-Bench 是一组六种不同的基于区域的任务的集合，如识别、数学和对象关系推理。我们还展示了 CRG 在空间推理中的适用性，在 What’sUp 上有 10%的改进，以及在组合泛化方面——在 SugarCrepe 的两个具有挑战性的分割上准确率提高了 11.5%和 7.5%——并且在生成图像的图像文本对齐方面，在 SeeTRUE 上我们提高了 8.4 AUROC 和 6.8 F1 点。CRG 还允许我们在诸如 RefCOCO/+/g 和 Flickr30K Entities 等指代表达理解和短语基础基准中对提议的区域进行重新排序，平均准确率提高了 3.2%。我们的分析探索了 CRG 的替代掩蔽策略，经验性地验证了 CRG 的设计选择。

在这里插入图片描述

图 1. 视觉基础定位不同方法的比较。(a)使用基础视觉语言模型预测答案失败。(b)即使添加了边界框，开源视觉语言模型也会产生错误答案。©视觉语言模型可以经过训练以识别像边界框这样的覆盖物，但这个过程涉及更新视觉语言模型且成本高昂。(d)我们的方法，即 CRG，提供了一种无需训练即可纠正预测的方法。右侧图像中相关对象区域被涂黑。在这里，即使没有视觉证据(visual evidence)，模型的分布也反映了其对回答“在……下面”和“在……左边”的先验概率。通过将这种分布因素排除，我们降低了先验概率，从而得出正确答案。
Notes：(d) “the model’s distribution reflects its prior on answering ‘under’ and ‘left’ even without visual evidence” ：在没有相关视觉证据（比如图片中物体实际空间关系的明显线索）的情况下，模型给出的答案分布体现出它更倾向于选择 “under”（在……下方）和 “left”（在……左边）作为答案。

从图1（a）中基础视觉语言模型（VLM）预测答案失败可知，模型在处理空间关系问题时本身存在不足。在（b）中，即便添加了边界框作为视觉提示，开源的VLM依旧给出错误答案，这表明模型不能有效利用这种视觉提示来判断物体间的空间关系。
当进行CRG操作时，右侧图像中相关物体区域被涂黑，此时模型给出的答案分布，也就是对各个可能答案（如 “under”“left” 等）的选择概率，反映出它在缺乏相关视觉证据时，仍然有较高的可能性选择 “under” 和 “left” 作为答案。这说明模型在回答这类问题时存在固有倾向，即 “prior”（先验倾向）。
CRG方法的作用就是通过对比有、无关键区域视觉信息时模型的输出，将这种不依赖于当前视觉证据的先验倾向从最终答案中剔除（factoring this distribution out），降低其对答案的影响，进而使模型给出正确答案，如在该例中得到 “right”（在……右边）这一正确的空间关系判断。

Introduction

大型视觉模型（VLM）的最新进展通过将大语模型（LLMS）的基于语言的推理强度与VIT [14]等视觉编码器结合到解决多模式任务方面取得了重大进展。虽然大型VLM（例如Llava [31,33]，Blip [27]，Pali [8]等）在涉及整个图像的任务上的性能越来越强（例如，回答有关图像的问题[1,15]或描述它们[22,60]），他们经常在扎根的特定区域中挣扎，在对象间空间关系上犯错误[21]和组成推理[19]。这种定位也无法阻止模型遵循“视觉提示” [6,9,24,50,56,67]，其中视觉标记（例如边界框）被叠加到图像上，以帮助模型专注于重要区域。改善模型的视觉及时及以下能力的可能性有可能提高各种VL域的性能，在这些VL域中，细粒度推理是关键的，包括视觉问答，图像文本对齐，空间推理以及参考表达理解。

【研究现状-挑战-本文工作】
已经尝试了几种纠正这些错误并改进细粒度区域定位的方法，但这些方法需要昂贵的专有模型或额外的数据和训练。Yang 等人[56]引入了标记集（Set-of-Mark，SoM）提示，这是一种在测试时直接将视觉标记覆盖在图像上的方法，有助于模型生成基于特定图像区域的答案。然而，SoM 仅在 GPT-4V 上进行了测试，我们在表 1 和表 5 中的结果表明，带有分割标记的 SoM 不能很好地迁移到开源视觉语言模型（VLMs）上。
此外，如图 1（b）所示，对于像“碗在哪里？”这样的空间问题，当给模型提供一个带有边界框作为标记的图像时，它对该问题预测的概率与使用图 1（a）中所示的原始模型预测的概率相似。SoM 对 GPT-4V 的依赖导致了一些限制：首先，所使用的模型在经济上成本高昂且规模庞大，这使得它在许多应用中不切实际。事实上，由于“配额有限且没有 GPT-4V API”，作者仅在数据的一小部分子集上展示了结果。其次，该模型的训练数据和细节未知，这意味着它可能使用额外的数据进行微调以监督定位。这种微调已被证明可以提高开源 VLMs 遵循视觉提示的能力：Cai 等人[6]合成了大量的微调数据，用于向图像添加箭头和边界框等视觉标记，以使开源 VLMs 能够遵循视觉提示。
虽然微调是有效的，如图 1（c）所示，微调后的模型以高置信度正确预测正确的介词，但它会产生大量的训练成本，尤其是随着模型规模的增大。为了解决现有方法的缺点（即依赖昂贵的训练或专有模型），我们提出了一种无需训练的方法，该方法与各种现有模型兼容。我们还表明，我们的方法与经过区域定位监督微调的模型互补，即当使用视觉提示时，它可以进一步提高模型的性能。

具体来说，我们提出了对比区域引导（CRG,Contrastive Region Guidance），这是一种新颖的策略，它利用无分类器引导（CFG, classifier-free guidance）[17,47]来帮助开源视觉语言模型专注于特定区域并理解视觉标记，而无需额外的训练。CRG 通过从关键区域中去除模型在没有视觉证据的情况下的响应，从而减少给定模型对某些答案的偏差（例如，图 1 中的“under”）。直观地说，在分解后，最终答案将是在关键视觉信息被移除时变化最大的那个答案（即最依赖视觉信息的答案），而所有不依赖关键区域视觉信息的答案将被降低权重。如图 1（d）所示，通过遮挡相关对象，CRG 揭示了一种先验，使模型偏向错误答案“under”；换句话说，即使在没有确定对象之间关系所需的相关视觉证据的情况下，模型也会回答“under”。然后，CRG 将这种先验因素排除，修正答案分布，并提供正确答案“right”。至关重要的是，CRG 仅依赖于视觉提示，或者——如果没有提供此类提示——可以访问用于提出边界框的对象检测模块；这样的模块在许多领域中都很容易获得[34,62]。

Notes1：模型回答 “under” 这种基于先验回答问题的原因：

模型固有偏见：视觉语言模型（VLMs）本身存在对某些答案的固有偏见。在处理空间关系等问题时，它在训练过程中可能接触到的数据或学习方式，使其形成了对 “under”“left” 等方向词的偏好，这种偏好会在缺乏足够视觉证据时体现出来。
数据偏差影响：模型训练数据中，关于空间关系描述的数据分布不均衡。可能存在较多描述 “under” 关系的样本，导致模型在遇到类似问题时，即使没有明确视觉证据，也倾向于选择 “under” 作为答案。
缺乏区域关注能力：现有开源VLMs在关注特定图像区域和理解视觉标记方面能力不足。在面对空间关系判断时，无法有效利用图像中的信息准确判断，只能依赖已有的先验知识，导致出现这种不合理的回答倾向。

Notes2：CRG的做法：

CRG 迭代地 “遮蔽” （删除）关键视觉区域，并测量模型的响应变化程度。基本思想是，正确答案将在很大程度上依赖于来自已删除区域的视觉信息，从而导致概率分布发生最显着的变化。
移除没有导致显著变化的区域被认为是无关紧要的或表明幻觉先验。
通过比较模型在有和没有视觉区域的预测，CRG 消除了先验偏差。它减少了依赖于这种偏差的答案的权重，并修改了分布，使答案更多地依赖于实际的视觉证据。

在这里插入图片描述

图2.左：我们的方法的示例，对比区域引导（CRG），它引导VLM关注特定的感兴趣区域（ROI）。右：CRG在各种VL任务中的应用：（a）：当使用ROI回答视觉问题时，CRG引导VLM回答特定区域。（b）：即使没有提供特定区域，我们也可以利用对象检测器来找到重要对象并引导VLM关注对象。（c）：对于图像-文本对齐，CRG引导模型生成与图像中的对象及其关系相关的文本，从而导致正确文本与不正确文本的概率更高。（d）：CRG还可以通过找到提供最大对比度的掩码来帮助VLM从一组多个区域提案中找到与给定文本对应的区域。

我们在 5 个不同领域的各种数据集以及 2 个不同的模型上评估 CRG，下面将更详细地描述这些内容：

视觉提示跟随。为了衡量 CRG 结合视觉提示的能力，我们在 ViP-Bench 上进行测试[6]，它包含 6 种不同的任务类型，每种类型都需要理解细致的、区域级别的推理。例如，数学任务要求根据多个方程的图像求解数学方程，其中一个方程被突出显示或圈起来，如图 2(a)所示。在这里，CRG 比 LLaVA-1.6-34B 模型平均提高了 11.1%的准确率，与最强的基线 GPT-4V 表现相当。当应用于 ViP-LLaVA 时，CRG 也提供了显著的改进，表明它与有监督的方法是互补的。
空间推理。我们还通过突出相关图像区域来衡量 CRG 在改善空间推理方面的作用（见图 1）；在“What’sUp”空间推理基准测试的最难设置下[21]，带有 CRG 的 LLaVA1.5-13B 比基线方法的性能高出高达 8.3%，实际上也比依赖相同模型进行大量预训练的基于训练的方法高出 15.4%。此外，在“What’sUp”的最难设置下，带有 CRG 的 LLaVA-1.6-34B 比单独的 LLaVA-1.6-34B 提高了 10%。
组合泛化。此外，我们表明 CRG 更好的基础有助于解决当前视觉语言方法的一个主要限制：对语言进行组合分析的能力较差。模型通常无法区分“房子上的植物”和“植物上的房子”这样两个相似的句子[36,42,53]。我们表明，通过 CRG，LLaVA-1.634B 在 SugarCrepe（视觉语言任务中组合性的具有挑战性的基准数据集）上比没有 CRG 的模型提高了 11.5%和 7.5%，并且在 SugarCrepe 的挑战分割中，LLaVA-1.6-34B 比最强的 GPT-4V 基线提高了 4.7%和 3.6%。
文本到图像生成模型的图像评估。CRG 还可以评估生成的图像；在 SugarCrepe 的[58]DrawBench、EditBench 和 COCO-t2i 分割上，CRG 平均将模型对匹配图像-文本对的识别提高了 8.4 AUROC 和 6.7 F1 点。
指代表达理解和短语定位的重排序。由于其粒度，CRG 可用于对来自目标检测器的边界框提议进行重排序，以找到与给定文本相关的边界框（参见图 2(d)中的示例）；在 RefCOCO/+/g [22,37]指代表达理解任务和 Flickr30K Entities 短语定位任务 [40]中，在具有多个边界框的情况下，应用于 LLaVA-1.5-13B 的 CRG 比基线 LLaVA-1.5-13B 重排序器的性能提高了高达 3.2%。”

对对比区域引导（CRG）方法进行的深入分析及相关发现：

CRG屏蔽策略有效性验证：研究人员对CRG的各个组成部分进行了详细的消融分析，即通过去除或改变某些组件来观察对整体效果的影响。结果验证了CRG单独屏蔽每个对象的掩蔽策略的优势，这种策略在性能上优于其他粒度更高或更低的替代方法。比如将整个图像涂黑，会去除过多信息，可能导致模型丢失关键线索；使用分割掩模涂黑对象，虽然保留了对象形状等信息，但模型可能会受到这些额外信息的干扰，无法精准聚焦关键区域。而CRG单独屏蔽每个对象的方式，能准确去除必要区域的信息，避免意外排除额外有用信息，从而使模型更好地关注目标区域。
其他视觉提示策略的局限性：分析还发现，当前模型在面对其他不使用对比的流行视觉提示策略时表现不佳，例如仅叠加边界框和分割掩模。这是因为简单地叠加这些视觉标记，并不能保证模型会聚焦于感兴趣的区域，模型仍可能关注区域外的虚假信息，就像没有视觉提示时一样，无法有效引导模型做出准确判断。
附录B中的补充分析：进一步展示了CRG与不同目标检测器配合使用的情况，表明CRG具有较好的通用性，不依赖特定的目标检测模块。同时，还对CRG对关键文本跨度概率的影响进行了度量，发现CRG能够增加正确文本跨度的可能性，同时惩罚不正确的文本跨度，有助于模型更准确地理解和匹配文本与图像内容。此外，附录B还对CRG的超参数进行了验证，确保超参数设置的合理性和有效性，以保证CRG在不同任务和模型上都能取得较好的效果。

2. 相关工作

2.1. Visual Prompting for VLMs.

最近的几个研究方向研究了通过操纵视觉输入来提示 VLM：（i）将可学习的软标记合并到视觉输入中以进行参数高效的微调[2,23]，（ii）连接图像序列作为新任务的演示[4 ,5]，以及(iii)通过将视觉标记（例如，掩模/框/圆圈等）覆盖到视觉输入上来接地区域[50,57,61]。我们的工作属于第三类，使用视觉引导来定位。杨等人。 [56]提出了标记集（SoM）提示，其中图像被划分为用数字标记标记的分割区域，这改善了 GPT-4V [39]的视觉基础。然而，在几秒内。 4.2 和 4.5 我们证实了过去的发现 [6]，即此类视觉提示不适用于 LLaVA 等 VLM。蔡等人。 [6] 使用不同的视觉标记进行指令调整，以便 VLM 可以更好地遵循用户输入的视觉提示。 CRG 不依赖专有模型或微调，而是通过屏蔽图像区域和对比模型分布来引发 VLM 中的视觉定位，即无需额外的训练或数据。此外，我们表明 CRG 与微调方法是互补的 [6]，组合时可以获得额外的改进。

2.2. 上下文引导的自回归模型采样 Context-Guided Sampling for Autoregressive Models

不同领域的一些工作提出了上下文引导采样以纳入额外的上下文。引导模型可以被认为是从有条件和无条件模型的对数似然差异中采样标记：logit( $(y ∣ c, x) - l o g i t (y ∣ x)$ ) ，其中 x 是输入，y 是输出，c 是上下文（更多细节见第 3 节）。这已被应用于文本生成[29,49]、图像生成[17]和图像字幕[25]。通过丢弃[25]、添加噪声[26]或扰动图像区域的输入嵌入[65]来操纵图像，条件随机场（CFG）也被应用于提高视觉语言模型的忠实度。我们的工作与[25,26]的不同之处在于专注于细粒度引导，明确地基于特定的图像区域，即在子图像级别上操作，并且与[65]的不同之处在于应用硬掩码完全去除区域的信息，而不是允许来自不相关区域的残留信息的软掩码。此外，过去的工作侧重于帮助用户突出特定的提示跨度以引导生成[6,65]。相比之下，条件随机场引导（CRG）允许模型自动找到最相关的区域，使我们能够减轻模型先验/偏差，并在生成任务之外还执行图像-文本对齐。”

2.3. 视觉模型中的偏差与定位缺失

对比区域引导（CRG）的优势在于排除视觉语言（VL）模型和任务中存在的偏差，这样一来，即使不考虑相关图像区域也能获得正确答案。过去的研究[12,15,63]已充分记录了这类偏差。其他研究[35,48,55]指出，视觉问答（VQA）模型即便回答正确，也常常会关注图像中的不相关区域。基于此，VisFis[59]引入了一系列损失函数，以减少模型“回答正确但原因错误”的情况，其中一些损失函数使用了人工绘制的边界框。CRG同样旨在将注意力吸引到相关图像区域，但它采用无梯度的方式，并且可以利用自动检测到的边界框来运行。

3. 方法

3.1.Background：Visual Prompting for VLMs

在我们的设定中，具有参数θ的视觉语言模型（VLM）以图像 $I∈\mathbb{R}^{H×W×3}$ 和由 n 个标记组成的文本 $X=[x_1,...,x_n]$ 作为输入，并输出由 m 个标记组成的文本 $Y=[y_1,...,y_m]$ 。在生成输出文本 Y 时，我们根据输入的 I 和 X 从条件概率分布中自回归地生成标记。在时间 t ，标记 $y_t$ 的概率为：
$y_t\sim p_{\theta}(y_t|I,X,y_{<t})\propto exp\ logit_{\theta}(y_t|I,X,y_{<t})$ （1），

其中 $logit_{\theta}$ 是标记 $y_t$ 的未归一化对数概率，即在 softmax 之前。
最近的工作[6,50,56]引入了视觉提示方法，通过覆盖视觉标记（例如边界框、掩码和箭头）来增强图像以突出特定区域。虽然过去的工作发现视觉提示可以改善 GPT-4V 的视觉基础[56]或专门在带有视觉提示的图像上训练的 VLM[6]，但我们发现在我们的实验中，公开可用的基础 VLM 很少遵循这样的视觉提示（表 1、2 和 3）。

3.2 Contrastive Region Guidance (CRG) for Visual Grounding

我们引入对比区域引导（Contrastive Region Guidance，CRG），这是一种无需训练的视觉基础定位方法，通过扩展无分类器引导（classifier-free guidance，CFG）[17]，引导任何视觉语言模型（Visual Language Model，VLM）聚焦于图像中的特定区域。受到视觉特征重要性相关工作的启发[44,59]，我们通过测量当图像区域被移除时 VLM 的输出分布的变化来确定图像区域的重要性，并通过分布之间的对比来引导视觉语言模型（VLM）聚焦于特定区域，如图 2 左侧所示。
具体来说，我们从通过对比图像 I 和图像 $I^{'} = ma s k (I, b)$ 得到的概率分布中进行采样，其中特定区域 b 中的像素被涂黑：
$y_{t} \propto p_{\theta}\left(y_{t} | I, X, y_{<t}\right)\left(\frac{p_{\theta}\left(y_{t} | I, X, y_{<t}\right)}{p_{\theta}\left(y_{t} | mask(I, b), X, y_{<t}\right)}\right)^{\alpha} (2)$
$\sim softmax\left[(1+\alpha) \cdot logit_{\theta}\left(y_{t} | I, X, y_{<t}\right)-\alpha \cdot logit_{\theta}\left(y_{t} | mask(I, b), X, y_{<t}\right)\right] . (3)$
这里的“ $\alpha$ ”是区域引导参数，用于控制对区域 b 的关注强度。较大的“ $\alpha$ ”意味着区域引导被进一步放大。例如，“ $\alpha = 1$ ”表示对该区域赋予高权重，而“ $\alpha = 0$ ”会使等式变为标准解码。参照先前的工作[38,49]，我们在所有地方都使用“ $\alpha = 1$ ”。

CRG 适用于很多视觉语言任务，包括图像条件文本生成以及图像 - 文本和区域 - 文本对齐任务：

当给出一个感兴趣的区域时（如图 2（a）所示），可以引导视觉语言模型在生成答案时聚焦于该区域。
当没有特定区域给出时（如图 2（b）和（c）所示），可以使用来自文本条件对象检测器（如 GroundingDINO）的区域提议，并引导视觉语言模型聚焦于提议的区域。具体做法是获取所有名词短语（图 2（b）中的“dog”和“table”，以及图 2（c）中的“dog”和“car”），找到它们对应的边界框，然后将图像中的对象涂黑。接着可以在视觉问答中生成答案（如图 2（b）所示），或者强制解码句子并获取其概率（如图 2（c）所示）。
对于名词短语有多个边界框候选的情况，应用重新排序策略。对于每个候选，将相应的图像区域涂黑，并用公式（3）计算给定文本或短语的分数。选择涂黑时能实现最高对比度的区域。如图 2（d）所示，去除左边的狗会使句子“a dog with mouth closed”的概率发生最剧烈的变化，从而表明与所描述的文本有很强的关联。

4 Experiments and Results

4.1 Experimental Setup

我们使用 LLaVA-1.5-13B [32] 和 LLaVA-1.6-34B [31] 模型。对于遵循 ViP-Bench 的视觉提示任务，我们使用数据集中提供的视觉提示；对于没有给定区域的其他任务，我们首先使用 spaCy [18] 提取名词短语，然后使用 GroundingDINO-B [34] 为每个短语生成region proposal，并将得到的边界框过滤为得分高于 0.3 阈值的那些。对于文本生成，我们选择贪心解码( greedy decoding )以确保可重复性。在所有设置中，我们使用 CRG 强度 $\alpha = 1$ 。关于实验设置和数据集统计的更多详细信息，请读者参考附录 A。

4.5. 一些实验结论

对比CRG的单独屏蔽策略与其他策略，以及直接叠加视觉标记在预训练视觉语言模型（VLMs）上的效果：

对比屏蔽策略效果：在探讨不同区域引导策略时，虽然使用分割掩模（Grounded - SAM生成）涂黑对象（文中标记为©策略）在众多屏蔽策略中有一定竞争力，但仍不如CRG单独涂黑每个对象（Blackout Separate，标记为(e)策略）的效果好。这表明模型可能会利用分割掩模保留的对象形状信息，这种额外信息可能干扰了模型对关键区域的关注，进而影响其性能。
直接叠加视觉标记的效果：测试了直接使用不同视觉标记（如边界框(f)、分割掩模(g)）进行视觉提示的效果，这些方法在经过专门训练的模型上已被证明有效。同时，还实验了SoM（Set - of - Mark）提示策略（标记为(h)）。结果显示，对于LLaVA - 1.6 - 34B这种预训练的VLM，上述三种直接叠加视觉标记的方法表现均不如使用原始图像，即模型无法有效利用这些视觉提示，这在表5中得到体现，该结果也与表1中SoM提示对基于LLaVA模型效果不佳的结论相呼应。
CRG策略的优势：直接叠加视觉标记无法保证模型聚焦感兴趣区域，模型仍可能关注区域外的虚假信息，就像处理原始图像一样。而CRG通过对比原始图像和涂黑关键区域后的图像，利用减法去除虚假信号，减少模型对虚假信息的关注，凸显关键区域的重要性，从而帮助模型更好地理解和遵循视觉提示，这突出了CRG所选涂黑策略的实用价值。

5.Limitations

CRG 在各种视觉语言任务中表现出色；然而，与所有 CFG 方法一样，由于需要对模型运行两次（在原始图像和涂黑的图像上），它会带来额外的计算成本。这种成本被以下事实所抵消：CRG 广泛适用于各种模型和数据集，并且不需要微调——尽管它与经过微调的模型互补（第 4.2 节）。如果没有视觉标记，CRG 也依赖于对象检测器；然而，这样的模型在许多领域都有。未来的工作可以整合更好的视觉编码器，能够直接识别相关区域而无需额外的对象检测器。

6.结论

我们提出了 CRG，这是一种易于访问且无需训练的方法，可用于提高视觉语言模型（VLMs）的视觉提示跟随能力。CRG 在视觉提示跟随方面提供了显著的改进，并且在缺乏区域标注真实值的各种视觉语言任务中都很有效：通过对物体检测模型识别出的区域采用重新排序策略，CRG 改善了生成图像的空间推理、组合泛化和图像文本对齐。我们进一步探索了不同的区域引导策略，旨在为视觉提示技术的未来发展奠定基础。未来工作的一个方向包括整合视觉和文本上下文：我们的研究侧重于通过视觉输入引导模型，同时已有工作[10,66]提出通过在说明文字中添加文本上下文进行引导。我们相信这些方向相互补充，并建议采用组合方法来实现增强的多模态提示跟随策略。