点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
论文标题:A Unified Framework for 3D Scene Understanding
论文:https://arxiv.org/abs/2407.03263
项目:https://dk-liang.github.io/UniSeg3D/
代码:https://github.com/dk-liang/UniSeg3D
三维场景理解在虚拟现实、具身智能等技术中存在广泛应用,吸引了研究者们的极大关注。3D点云分割任务是三维场景理解领域的重要组成部分,3D点云分割包括实例、语义和全景分割任务,以及交互式分割任务、参考分割任务和开放词汇语义分割等任务,针对相关任务的研究已经取得引人注目的进展。然而,此前在三维场景理解领域中的研究工作主要聚焦于特定单一点云分割任务,因此这些方法对三维场景的理解限制在单一任务的视角下,忽视了不同任务之间的内在联系。这对实现全面和深入的三维场景理解带来了显著挑战。
华中科技大学的白翔研究团队针对于三维场景理解中的应用挑战,提出了一个简单且有效的3D点云统一分割框架:UniSeg3D模型。这一模型的设计理念是,构建一个统一的框架同时处理六种3D点云分割任务,通过多任务交互充分挖掘任务间的协同性,以实现全面而深入的场景理解,从而进一步促进3D点云分割任务中的性能表现。UniSeg3D框架有如下的优势:
多任务统一:当前的3D点云分割方法通常为单一任务设计,不同于现有的研究工作,UniSeg3D经过一次推理过程能够同时支持六种点云分割任务;
性能优异:通过建立任务间的显式关联,UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能;
可扩展性:UniSeg3D采用query统一表征多种点云分割任务的信息与特征,结构简洁有效。且通过输入新增任务的query表征,可将UniSeg3D拓展至更多任务,展现了框架的可扩展性和灵活性。
UniSeg3D如何实现的?
框架结构如上图所示,它主要由三个模块组成:点云Backbone、Prompt编码器和掩膜解码器。其中,点云Backbone提取输入三维场景的点云特征;Prompt编码器包含文本提示编码器与视觉提示编码器,文本提示编码器提取文本特征,而视觉交互分割中的Prompt特征通过采样点云特征获取,将提取后的特征信息送入掩膜解码器中获取不同任务的分割结果。
在之前的研究工作中,忽略了各个任务间的关联,导致每个任务只关注其任务特定的视角,限制了全面而深入的三维场景理解。为克服以上缺陷,本研究采用对比学习和知识蒸馏建立了不同任务间的显式联系,促进深层次的三维场景理解。
对比学习:对于参考分割任务,当多个形状相同的物体相邻排列时,容易出现歧义问题,如上图(a)所示。因此引入基于ranking的对比学习方式,即利用交互式分割的特征与参考分割任务的特征进行对比学习从而建立显式关联,如上图(b)所示。
知识蒸馏:鉴于视觉交互式分割所展现出的优异性能,如上图(c)所示,利用交互式分割任务的预测mask和分类logits分别对全景分割任务的预测mask和参考分割任务输出的类别logits进行监督约束,从而实现性能优化。
UniSeg3D的效果如何?
全景分割、语义分割、实例分割、开放词汇语义分割、参考分割、交互式分割分别由PS、SS、IS、OVS、Referring、Interactive表示。从上述表格中可以看出,在仅实现六种任务,而不引入各任务间的联系时,在全景分割、语义分割、实例分割任务和交互式分割任务上的指标结果均有所降低,因此统一多种3D点云分割任务是一个富有挑战性的课题。
UniSeg3D在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试,取得了优异的性能,具体情况如下:
在全景分割、语义分割、实例分割、开放词汇语义分割、交互式分割和参考分割任务中,UniSeg3D均取得SOTA表现,这表明UniSeg3D在统一3D点云分割任务上的有效性。
下图展示了UniSeg3D在六种3D点云分割任务上的可视化结果。
总结
UniSeg3D作为首个在三维场景理解中集成六大分割任务的模型,为三维场景理解提供了一个灵活而高效的解决方案。以前的特定任务的方法不能提取跨任务信息,阻碍了全面的三维场景的理解。相比之下,UniSeg3D充分利用了支持多任务的结构特点,进一步通过建立任务间的关联来提高模型性能,从而在各种基准任务中取得优异表现。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和3D点云交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、3D点云微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、3D点云+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看