OpenScene

OpenScene是一种无监督的3D场景理解方法,它通过将3D点特征与CLIP特征空间中的文本和图像像素共同嵌入,实现任务无关性和开放词汇表查询。这种方法能够在无需任何标签的3D数据下,执行包括3D语义分割在内的多种场景理解任务,且能对任意文本查询做出响应。虽然存在图像融合和基准测试的局限性,但OpenScene为3D场景理解开辟了新路径,有望从大规模多模态数据中学习更强大的3D理解能力。
摘要由CSDN通过智能技术生成

paper:OpenScene: 3D Scene Understanding with Open Vocabularies 

code: https://github.com/pengsongyou/openscene

摘要:传统的3D场景理解方法依赖于带标签的3D数据集,在有监督的情况下为单个任务训练模型。我们提出了OpenScene,一种替代性的方法,模型预测CLIP特征空间中与文本和图像像素共同嵌入的三维场景点的稠密特征。这种零样本方法可以实现任务无关性训练和开放词汇表查询。例如,为了执行SOTA零样本3D语义分割,它首先推断每个3D点的CLIP特征,然后根据它们与任意类标签嵌入的相似性进行分类。更有趣的是,它实现了一套以前从未做过的开放词汇场景理解应用。例如,它允许用户输入一个任意的文本查询,然后看到一个热图,表明场景中的哪些部分匹配。我们的方法可以有效地识别复杂三维场景中的物体、材料、可供性、活动和房间类型,所有这些都是使用没有任何标记的三维数据训练的单一模型。开放词汇3D场景理解。我们提出了OpenScene,一种零样本的3D场景理解方法,该方法将稠密的3D点特征与图像像素和文本共同嵌入。上面的例子展示了一个3D场景,其中表面点的颜色由它们与用户指定的查询字符串的匹配程度决定- -黄色最高,绿色居中,蓝色较低

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值