OpenScene

Pancy93

已于 2023-10-18 20:07:24 修改

阅读量351

点赞数

文章标签：计算机视觉

于 2023-08-08 17:02:34 首次发布

本文链接：https://blog.csdn.net/panxiying1993/article/details/132170457

版权

OpenScene是一种无监督的3D场景理解方法，它通过将3D点特征与CLIP特征空间中的文本和图像像素共同嵌入，实现任务无关性和开放词汇表查询。这种方法能够在无需任何标签的3D数据下，执行包括3D语义分割在内的多种场景理解任务，且能对任意文本查询做出响应。虽然存在图像融合和基准测试的局限性，但OpenScene为3D场景理解开辟了新路径，有望从大规模多模态数据中学习更强大的3D理解能力。

摘要由CSDN通过智能技术生成

paper：OpenScene: 3D Scene Understanding with Open Vocabularies

code: https://github.com/pengsongyou/openscene

摘要：传统的3D场景理解方法依赖于带标签的3D数据集，在有监督的情况下为单个任务训练模型。我们提出了OpenScene，一种替代性的方法，模型预测CLIP特征空间中与文本和图像像素共同嵌入的三维场景点的稠密特征。这种零样本方法可以实现任务无关性训练和开放词汇表查询。例如，为了执行SOTA零样本3D语义分割，它首先推断每个3D点的CLIP特征，然后根据它们与任意类标签嵌入的相似性进行分类。更有趣的是，它实现了一套以前从未做过的开放词汇场景理解应用。例如，它允许用户输入一个任意的文本查询，然后看到一个热图，表明场景中的哪些部分匹配。我们的方法可以有效地识别复杂三维场景中的物体、材料、可供性、活动和房间类型，所有这些都是使用没有任何标记的三维数据训练的单一模型。开放词汇3D场景理解。我们提出了OpenScene，一种零样本的3D场景理解方法，该方法将稠密的3D点特征与图像像素和文本共同嵌入。上面的例子展示了一个3D场景，其中表面点的颜色由它们与用户指定的查询字符串的匹配程度决定- -黄色最高，绿色居中，蓝色较低

最低0.47元/天解锁文章

Pancy93

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OpenScene

文介绍了一种任务无关的方法，将3D点嵌入到具有文本和图像像素的特征空间中，并展示了其在零样本、开放词汇的3D场景理解中的实用性。它在标准基准上实现了零样本3D语义分割的最新技术，在具有许多类标签的3D语义分割中优于有监督的方法，并实现了新的开放词汇应用程序，其中任意文本和图像查询都可以用于查询3D场景，所有这些都不使用任何已标记的3D数据。给定一个3D模型(网格或点云)和一组给定的图像，我们训练了一个3D网络E3D来为具有蒸馏损失L的3D点f 3D产生稠密的特征，以多视图融合的特征f 2D为投影像素。
复制链接

扫一扫

OpenScene

“相关推荐”对你有帮助么？