Spatialvlm: Endowing vision-language models with spatial reasoning capabilities 如何赋予vlm空间推理能力

这篇是今年四月份Google deepmind团队的新作。下面是摘要中的两句话,

GitHub - remyxai/VQASynth: Compose multimodal datasets 🎹

https://colab.research.google.com/drive/1WPE7Br5A5ERSij8BL1M22EoEMLVkD8EP?usp=sharing#scrollTo=NjUMSt4nkeye

Vision Language Models (VLM) still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size difference. 视觉语言模型的缺乏空间推理能力,比如无法得到物体之间的物理距离和物理尺寸等等。

We hypothesize that VLMs’ limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. 作者认为这并不是模型本身的问题造成的,而是因为我的训练数据中没有三维知识造成的。因此作者的构建了一个大规模的有3D知识的数据,然后用数据训练vlm。使得vlm获得空间推理能力。

论文的图有点难理解,我根据code从新画了一个框图。

下面是把图像转成有物理尺度的三维语义instance

下面是用三维语义instance和语言模版生成训练语言。

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值