点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
![619f8baea9c6ed2b53b78236a2ab0df5.png](https://img-blog.csdnimg.cn/img_convert/619f8baea9c6ed2b53b78236a2ab0df5.png)
Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection
论文:https://arxiv.org/abs/2406.00830
代码主页:
https://github.com/yangcaoai/CoDA_NeurIPS2023
摘要
![f5e111d4eeaca7c31d4cf543b36915d0.png](https://img-blog.csdnimg.cn/img_convert/f5e111d4eeaca7c31d4cf543b36915d0.png)
开放词汇3D物体检测(OV-3DDet)针对的是在3D场景中检测来自任意新类别列表的物体。如上图所示,模型仅由绿色框表示的基础类别 (base category) 的标注训练,但却可以检测出蓝色框表示的新颖类别 (novel category) 的物体。这仍然是一个非常具有挑战性的新问题。在这项工作中,我们提出了CoDAv2,这是一个统一的框架,旨在创新地解决有限基础类别条件下新颖3D物体的定位和分类问题。对于定位,我们提出的3D新颖物体发现(3D novel object discovery, 3D-NOD)策略利用3D几何先验和2D开放词汇语义先验在训练期间发现新物体的伪标签。3D-NOD进一步扩展了一个数据丰富策略(Enrichment),显著增加了训练场景中新颖物体的分布,然后提高了模型定位更多新物体的能力。带有Enrichment策略的3D-NOD被称为3D-NODE。对于分类,发现驱动的跨模态对齐(Discovery-driven cross-modal alignment, DCMA)模块将3D点云和2D/文本模态的特征进行对齐,采用类不可知和类特定的对齐方式,这些对齐方式经过迭代细化,以应对不断扩展的物体词汇表。此外,2D框指导提高了模型在复杂背景噪声中的分类准确性,这被称为Box-DCMA。广泛的评估证明了CoDAv2的优越性。CoDAv2的表现大幅超过了最佳性能方法(在SUN-RGBD上的AP_Novel为9.17 vs. 3.61,在ScanNetv2上为9.12 vs. 3.74)。
方法
![eea36387c9b2a9dcd26eee0a2ecb3ec7.png](https://img-blog.csdnimg.cn/img_convert/eea36387c9b2a9dcd26eee0a2ecb3ec7.png)
上图展示了CoDAv2的整体框架,该框架的检测backbone选择了3DETR,采用其编码器和解码器网络。在这个设置中,物体查询和点云特征由解码器处理,以细化查询特征,然后将这些特征引导到3D物体的分类和定位头。我们提出了一种新的方法,3D新颖物体发现(3D-NOD),该方法利用预测中的3D几何先验和预训练CLIP模型中的2D开放词汇语义先验,促进在训练阶段发现新颖物体。在此基础上,我们设计了3D新颖物体丰富(Enrichment)方法来扩展3D-NOD。此方法在整个训练过程中维护一个在线新颖物体数据池,并通过从该池中采样的新颖物体来增强训练场景。带有丰富策略的3D-NOD被统称为3D-NODE。发现的新颖框标签也被收集到一个在线新颖框标签池中,以支持我们的发现驱动的跨模态对齐(DCMA),该对齐包括类不可知蒸馏 (class-agnostic distillation) 和类特定的对比对齐 (class-specific contrastive alignment)。3D-NOD和DCMA之间的协同作用通过端到端的方式促进了有效的新颖物体检测和分类。此外,我们提出用2D框指导扩展DCMA,称为Box-DCMA,该方法通过来自OV-2DDet模型的预测2D框增强了区分背景框和前景框的能力。
![57c6b41d46053721d55c5615c2982725.png](https://img-blog.csdnimg.cn/img_convert/57c6b41d46053721d55c5615c2982725.png)
上图展示了Box-DCMA。其由两个主要组件组成:类不可知蒸馏 (class-agnostic distillation, 左面板) 和类特定对比特征对齐 (class-specific contrastive alignment, 右面板)。首先,从检测头预测的3D框被投影以获得2D图像物体区域。这些区域随后由CLIP图像编码器编码以生成相应的2D物体特征。接下来,这些从CLIP导出的2D特征和3D点云物体特征被输入到类不可知蒸馏模块中以实现特征对齐。此外,通过3D-NOD动态更新的新颖框标签池在训练期间通过3D-Box-guide FG Matching将预测的3D前景物体框与前景类别文本对齐。背景区域使用2D-Box-guide BG Matching与背景类别文本对齐。我们对匹配的框执行对比对齐,以学习更具辨别性的3D物体特征。这些增强的3D物体特征随后有助于准确预测新颖物体。
实验
我们的实验在两个具有挑战性的3D物体检测数据集上进行,即SUN-RGBD和ScanNetv2。SUN-RGBD包含超过5000个训练样本,而ScanNetv2包含超过12000个训练样本。其中,SUN-RGBD包含10类基础类别(base category)和36类新颖类别(novel category),ScanNetv2包括10类基础类别和50类新颖类别。评估指标是交并比(IoU)阈值为0.25的mAP。
![75180654255a03dff084d16f1f2c55df.png](https://img-blog.csdnimg.cn/img_convert/75180654255a03dff084d16f1f2c55df.png)
上图是在SUN-RGBD和ScanNetv2上的效果对比,我们的CoDA和CoDAv2显著地领先了其他方法。其中,在SUN-RGBD数据集中,CoDAv2比3D-CLIP高出超过 150%。同样地,在ScanNetv2数据集中,CoDAv2比3D-CLIP高出超过140%。这些优势充分证明了我们方法的有效性。
![63181fd526598f8dbddf6d87ca588e5c.png](https://img-blog.csdnimg.cn/img_convert/63181fd526598f8dbddf6d87ca588e5c.png)
同时,我们也在OV-3DET的setting上进行了更多对比,如上图所示,在ScanNetv2数据集中,CoDAv2模型实现了平均AP的显著提升,增加了4.7点,从而验证了我们方法的优越性。
![087417a0241f6a18f2b64c0314053c3b.png](https://img-blog.csdnimg.cn/img_convert/087417a0241f6a18f2b64c0314053c3b.png)
上图是关于不同方法预测样本的对比。通过对前两列样本的比较可以观察到,借助我们3D-NODE的增强,CoDAv2能够检测到更多的新颖物体,例如在2D彩色图像中由蓝色框标出的边桌。在分析后两列时,受益于我们的Box-DCMA,CoDAv2不仅识别出更多的新颖物体,例如由蓝色框标出的回收箱,还有效避免了引入额外的背景噪声框。
总结
在本文中,我们提出了一个统一的框架,称为CoDAv2,以应对开放词汇3D物体检测(OV-3DDet)中的核心挑战,该挑战目标是同时定位和分类新颖物体。为了实现3D新颖物体的定位,我们提出了3D新颖物体发现(3DNOD)策略,该策略利用3D几何先验和2D开放词汇语义先验,在训练期间增强新颖物体的发现。对于新颖物体的分类,我们设计了一个发现驱动的跨模态对齐模块(DCMA)。该模块结合了类不可知对齐和类区分对齐,以同步3D、2D和文本模态的特征。进一步地,我们通过设计3D新颖物体丰富策略 (Enrichment)和加入框指导 (Box guidance)来增强我们的贡献。Enrichment策略将新发现的新颖物体纳入训练3D场景中,从而增强模型检测新颖物体的能力,而Box guidance则在DCMA中设计,以提高背景与前景物体的区分能力。得益于我们的贡献,CoDAv2在两个具有挑战性的数据集上,即SUN-RGBD和ScanNetv2,显著优于表现最好的方法,超过140%。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
3D目标检测交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-3D目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如3D目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看