🌍 引言:VLM的“空间盲区”与几何理解的缺失
大型视觉语言模型(VLMs)在图像识别和文本理解方面取得了令人瞩目的进展,然而,在看似简单的空间推理任务中,它们却常常表现得“一头雾水”。即使是判断两个物体之间“上下左右”的基本关系,对VLM来说也构成了一项严峻的挑战。
想象一下,当VLM面对一张书“在”蜡烛“后面”的图片时,它可能会错误地描述为书“在”蜡烛的“左边”。这种错误并非偶然,而是VLM在处理视觉信息时普遍存在的“空间盲区”。
尽管之前的研究已经关注到视觉编码器(如CLIP)在VLM视觉处理中的局限性,但VLM内部文本和视觉标记之间的交互机制,以及它们如何共同构建几何理解,仍然是一个亟待解决的关键问题。VLM不仅需要准确识别图像中的物体,更重要的是,要理解这些物体之间的空间关系。这种几何理解能力,最终体现在模型如何分配其在视觉标记上的注意力。
本文将深入剖析VLM的内部机制,通过精心设计的空间推理任务,揭示其在注意力分配上的缺陷。更重要的是,我们将介绍一种名为AdaptVis的创新方法,它能够根据模型的自信程度,自适应地调整注意力分布,从而显著提升VLM在空间推理任务中的性能。