《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记1

22 篇文章 34 订阅 ¥19.90 ¥99.00

传统的3D场景理解方法依赖于带标签的3D数据集,用于训练一个模型以进行单一任务的监督学习。我们提出了OpenScene,一种替代方法,其中模型在CLIP特征空间中预测与文本和图像像素共同嵌入的3D场景点的密集特征。这种零样本方法实现了与任务无关的训练和开放词汇查询。例如,为了执行最先进的零样本 3D语义分割,它首先推断每个3D点的CLIP特征,然后根据与任意类别标签的嵌入的相似性对它们进行分类。更有趣的是,它实现了一系列以前从未实现过的开放词汇场景理解应用。例如,它允许用户输入任意文本查询,然后查看一个热图,指示场景的哪些部分匹配。我们的方法在复杂的3D场景中有效地识别对象、材料、功能、活动和房间类型,所有这些只使用一个模型进行训练,而无需任何带标签的3D数据。

1. Introduction

3D场景理解是计算机视觉中的一项基本任务。给定一个带有一组RGB图像的3D网格或点云,目标是推断每个3D点的语义、可视性、功能和物理属性。例如,给定图1所示的房子,我们想要预测哪些表面是风扇(语义)的一部分,由金属(材料)制成,在厨房(房间类型)内,人可以坐在哪里(可供性),人可以在哪里工作(功能),哪些表面是柔软的(物理性质)。这些问题的答案可以帮助机器人与场景进行智能交互,或者通过交互式查询和可视化帮助人们理解场景。

(图1:开放词

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值