CRG Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
对比区域指导:无需训练即可改善视觉语言模型的基础
北卡罗来纳大学教堂山分校
摘要:
突出显示图像中特别相关的区域可以通过引导模型更密切地关注这些感兴趣的区域来提高视觉语言模型(VLM)在各种视觉语言(VL)任务中的性能。例如,VLM 可以得到“视觉提示”,其中边界框等视觉标记描绘出关键图像区域;这种方法之所以流行,是因为它改进了需要区域级信息的任务。然而,当前可以结合视觉引导的 VLM 要么是专有的且昂贵的,要么需要对包含视觉提示的精选数据进行昂贵的培训。我们引入对比区域引导(CRG),这是一种无需培训的引导方法,使开源 VLM 能够响应视觉提示。 CRG 对比有视觉提示和没有视觉提示时产生的模型输出,剔除模型在没有产生正确答案所需信息(即模型的先验)的情况下回答时所揭示的偏差。 CRG 在各种 VL 任务中实现了实质性改进:当提供区域注释时,CRG 在 ViP-Bench 上将绝对准确度提高了 11.1%,ViP-Bench 是六种不同的基于区域的任务的集合,例如识别、数学和对象关系推理。我们还展示了 CRG 在空间推理方面的适用性,其中我们在 What'sUp 的最难设置上获得了高达 10% 的改进,以及在组合泛化方面的适用性 — 在 SugarCrepe 的两个具有挑战性的分割中,准确率分别提高了 11.5% 和 7.5% —生成图像的图像文本对齐,我们在 SeeTRUE 上提高了高达 8.4 AUROC 和 6.8 F1 点。对于没有提示参考区域的情况,我们还表明,CRG 允许我们在引用表达理解和短语基础基准(如 RefCOCO/RefCOCO+/RefCOCOg 和 Flickr30K Entities)中对对象检测模型提出的区域进行重新排序,其中当有多个提案可用时,准确率平均提高 3.2%。在我们的分析中,我们探索了 CRG 的替代掩蔽策略,展示了 CRG 如何影响模型对相关文本短语的概率,并评估区域指导强度的作用,以实证方式验证 CRG 的设计选择。
1 简介
大型视觉语言模型 (VLM) 的最新进展通过将大型语言模型 (LLM) 基于语言的推理能力与 ViT 等视觉编码器相结合,在处理多模式任务方面取得了重大进展 [12]。虽然大型 VLM(例如 LLaVA [31, 30]、BLIP [25]、PaLI [9] 等)在涉及整个图像的任务上具有越来越强的性能(例如,回答有关图像 [1, 14] 的问题或描述他们[57, 20]),他们经常在特定区域的基础上遇到困难,在对象间空间关系[19]和组合推理[17]上犯错误。这种无法接地的情况还导致模型无法遵循“视觉提示”[8,22,63,47,6,53],其中边界框等视觉标记覆盖在图像上,以帮助模型聚焦于重要区域。提高模型的视觉提示跟随能力有可能提高各种 VL 领域的性能,其中细粒度推理是关键,包括视觉问答、图像文本对齐、空间推理和引用表达理解。
例如,在图 1(a)中,基础 VLM 很难解决一个需要空间推理的问题,“碗在哪里?”,错误地回答说碗在椅子下面(而碗在椅子的右侧)椅子)。失败的部分原因可能是模型的先验,即使在缺乏相关信息的情况下,模型的输出也会偏向某些答案;例如,在图 1(d)中,我们看到即使物体被涂黑,模型仍然倾向于回答“在下面”,尽管事实上这个问题无法从遮罩图像中得到答案,因为物体下面的区域椅子被遮盖了。
图 1:不同视觉接地方法的比较。 (a) 使用基本 VLM 预测答案失败。 (b) 即使添加了边界框,开源 VLM 也会产生错误的答案。 (c) VLM 可以被训练来识别像边界框这样的覆盖物,但是这个过程涉及更新 VLM 并且成本高昂。 (d) 我们的方法 CRG 提供了一种无需训练即可纠正预测的方法。右图的相关对象区域被涂黑。在这里,即使没有视觉证据,模型的分布也反映了其回答“下方”和“左侧”的先验。通过分解这个分布,我们减少了先验,得到了正确的答案。
已经尝试了几种纠正这些错误和改善细粒度区域接地的方法,但需要昂贵的专有模型或额外的数据和培训。杨等人。 [53]引入了标记集(SoM)提示,这是一种在测试时将视觉标记直接覆盖到图像上的方法,帮助模型生成基于特定图像区域的答案。然而,SoM 仅在 GPT-4V 上进行了测试,表 1 和表 5 中的结果表明带有分段标记的 SoM 不能很好地迁移到开源 VLM。此外,如图 1 (b) 所示,当给模型一个覆盖有边界框作为标记的图像时,它预测问题的概率与使用图 1 (a) 中所示的原始模型时预测的概率类似。 )。 SoM 对 GPT-4V 的依赖导致了许多限制:首先,所使用的模型成本高昂且庞大,这使得它对于许多应用来说不切实际。事实上,由于“配额有限且缺乏 GPT-4V API”,作者仅提供了一小部分数据的结果。其次,该模型的训练数据和细节未知,这意味着它实际上可能已经使用额外的数据进行了微调以监督接地。这种微调已被证明可以提高开源 VLM 遵循视觉提示的能力:Cai 等人。 [6] 合成大量的微调数据,用于向图像添加箭头和边界框等视觉标记,以使开源 VLM 能够遵循视觉提示。虽然微调是有效的,如图 1 (c) 所示,微调后的模型能够以高置信度正确预测正确的介词,但它会产生大量的训练成本,尤其是随着模型规模的增大。为了解决现有方法的缺点(即依赖昂贵的培训或专有模型),我们提出了一种与各种现有模型兼容的免培训方法。我们还表明,我们的方法是对通过区域接地监督进行微调的模型的补充,即,它可以在使用视觉提示时进一步提高模型的性能。
具体来说,我们提出了对比区域指导(CRG),这是一种利用无分类器指导(CFG)[15, 44]的新颖策略,帮助开源 VLM 专注于特定区域并理解视觉标记,而无需额外训练。CRG 减少了给定的通过分解模型在没有关键区域的视觉证据的情况下的响应,来确定模型对某些答案的偏差(例如,图 1 中的“低于”)。直观上,分解后,最终答案将是当关键视觉信息被移除时变化最大的答案(即最依赖视觉信息的答案),而所有不依赖于视觉信息的答案重点区域将被下调。如图 1 (d) 所示,通过涂黑相关对象,CRG 揭示了一个先验知识,该先验知识使模型偏向错误答案“under”;换句话说,即使没有确定对象之间关系所需的相关视觉证据,模型也会回答“低于”。 CRG 然后将这个先验因素分解出来,修改答案分布,并提供正确的答案“正确”。至关重要的是,CRG 仅依赖于视觉提示,或者(如果未提供此类提示)访问对象检测模块来建议边界框;这些模块很容易在许多领域使用[59, 32]。
我们在 5 个不同领域的各种数据集和 2 个不同模型上评估 CRG,下面将更详细地描述。
1.视觉提示跟随。为了衡量 CRG 整合视觉提示的能力,我们在 ViP-Bench [6] 上进行测试,其中包含 6 种不同的任务类型,每种任务类型都需要理解细粒度的区域级推理:对象识别 (REC)、OCR、常识知识 (KNO