这篇是今年四月份Google deepmind团队的新作。下面是摘要中的两句话,
GitHub - remyxai/VQASynth: Compose multimodal datasets 🎹
Vision Language Models (VLM) still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size difference. 视觉语言模型的缺乏空间推理能力,比如无法得到物体之间的物理距离和物理尺寸等等。
We hypothesize that VLMs’ limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. 作者认为这并不是模型本身的问题造成的,而是因为我的训练数据中没有三维知识造成的。因此作者的构建了一个大规模的有3D知识的数据,然后用数据训练vlm。使得vlm获得空间推理能力。
论文的图有点难理解,我根据code从新画了一个框图。
下面是把图像转成有物理尺度的三维语义instance
下面是用三维语义instance和语言模版生成训练语言。