点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

论文题目:CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoor Object Detection from Multi-view Images
作者:Guanlin Shen,Jingwei Huang等
作者机构:School of Software, Tsinghua University, China ,Tencent, China等
论文链接:https://arxiv.org/pdf/2403.04198.pdf
代码链接:https://github.com/SerCharles/CN-RMA
这篇论文介绍了一种名为CN-RMA的新方法,用于从多视角图像中检测3D室内物体。该方法利用了3D重建网络和3D物体检测网络的协同作用,通过重建网络提供的粗略距离函数和图像特征的投票,在解决图像和3D对应关系模糊性的挑战上取得了成功。具体而言,通过射线行进为每条射线的采样点分配权重,表示图像中一个像素对应的3D位置的贡献,并通过预测的有符号距离确定权重,使图像特征只投票到重建表面附近的区域。该方法在ScanNet和ARKitScenes数据集上实现了最先进的性能。

读者理解:
本文介绍了一种名为CN-RMA的新方法,用于从多视图图像中进行室内3D物体检测。该方法通过引入一种名为Ray Marching Aggregation(RMA)的技术,能够有效地将2D特征聚合到3D点云中,并考虑了遮挡情况,从而在性能上超越了先前的方法。作者还对该方法进行了详细的实验验证,并与其他方法进行了比较,结果表明CN-RMA在两个数据集上均取得了优越的性能。
我认为这项研究在解决室内3D物体检测问题上具有重要意义。通过有效地利用多视图图像和引入遮挡感知的聚合技术,CN-RMA能够更准确地检测物体,这对于室内环境中的智能机器人和自动驾驶等应用具有很大的潜在应用价值。作者提出的方法也为未来相关研究提供了新的思路和方法,有助于推动这一领域的发展。
1 引言
这篇论文提出了一种名为CN-RMA的新方法,用于从多视角图像中检测3D物体。传统方法是先从多视角图像中重建3D场景,然后从重建的点云中进行物体检测,但这种方法存在两个阶段之间缺乏连接性的问题。本文提出的方法通过将重建网络和检测网络无缝结合,并引入遮挡感知的特征聚合模块,有效地解决了这一问题。具体而言,该方法首先使用多视角立体匹配(MVS)模块重建粗略的场景几何,然后利用名为射线行进聚合(RMA)的遮挡感知聚合模块,在3D空间中聚合图像特征,并在重建表面附近提取具有聚合特征的点云进行物体检测。通过预训练和微调整个网络,使其各组件协同工作,达到最佳性能。该方法在ScanNet和ARKitScenes数据集上取得了显著的性能改进,包括mAP@0.25和mAP@0.5方面分别提高了3.2和3.0在ScanNet中,以及在ARKitScenes中分别提高了7.4和13.1。这表明了该方法在室内多视角图像中的3D物体检测任务上取得了最先进的性能。
本文贡献:
建立了多视角3D重建网络和3D物体检测网络之间的无缝连接,使得在3D空间中更好地利用图像特征以实现更好的性能。
提出了一种创新的遮挡感知聚合方法RMA,它利用重建的场景TSDF来解决复杂的遮挡问题。
采用了预训练和微调方案,并在从多视角图像中室内3D物体检测方面实现了最先进的性能。

2 方法
2.1 问题表述
本研究旨在利用多视角图像及其相应的相机参数,在复杂的遮挡场景中实现精确的3D物体检测。为此,提出了一个流程,通过结合MVS重建模块和3D检测网络,并引入了遮挡感知的特征聚合方法,实现了该目标。流程包括以下步骤:
提取每个图像的2D特征。
使用相机参数将图像特征聚合为体积特征。
使用3D重建网络预测粗略的场景几何。
使用遮挡感知聚合模块提取3D几何作为带有特征的点云。
将点云与特征通过检测网络传递,得到物体的3D边界框和标签分数。
2.2 多视角立体匹配模块
本节介绍了多视角立体匹配模块(MVS),旨在通过多视角图像和相应的相机参数实现精确的3D物体检测。为此,使用Atlas作为MVS模块,它可以以端到端的方式训练和使用来预测重建,包括一个2D骨干和一个3D重建网络。具体步骤包括:
使用ResNet50-FPN骨干从每个图像中提取2D特征。
通过反投影将每个视图的2D特征提升到3D,并通过平均池化聚合它们,生成3D体积特征。
将3D体积特征馈送到Atlas中的3D CNN重建网络中,得到粗略的场景TSDF。
使用L1损失在三个不同尺度上对预测的TSDF值和地面实况TSDF值进行损失计算,以增强训练。
这种方法可以避免遗漏检测,并在训练中提高泛化能力。

2.3 射线行进聚合
本节介绍了射线行进聚合(RMA)方法,用于改进在重建阶段通过直接平均提升的图像特征来预测3D特征体积的方法。由于图像特征可能会投票到未观测到的空间,造成体积特征受到某些视图的污染,因此需要处理遮挡。为了提高鲁棒性,引入了一种软遮挡感知聚合方案RMA,灵感来自于NeRF和NeuS。具体而言,根据NeuS,作者根据TSDF计算体积密度。通过射线行进在每个像素的射线上采样点,并根据NeRF累积透射率来计算每个点的不透明度。因此,可以通过加权平均图像特征来计算3D特征,权重由不同视图的透射率确定。最终,提取接近重建表面的点和聚合特征,并将点云传递给3D检测模块进行物体检测。
2.4 3D物体检测网络
本节介绍了3D物体检测网络,该网络接收重建的点云和聚合特征P作为输入,使用FCAF3D作为检测网络。首先,将P转换为稀疏体素,并传递给FCAF3D以预测每个体素的分类分数、边界框回归参数和3D中心度。检测损失由焦点损失、IOU损失和二元交叉熵损失组成,用于监督网络的训练。
2.5 训练过程
本节讨论了训练过程。由于架构复杂,同时结合了MVS模块和检测网络,因此从头训练可能导致过拟合。为了解决这个问题,采用了预训练和联合微调的方案。首先,对2D骨干和3D重建网络进行预训练,利用重建损失以充分利用3D几何信息。然后,冻结这些网络,进行3D检测网络的预训练,只考虑检测损失。最后,通过联合微调整个网络,平衡重建损失和检测损失,以获得最终的3D检测结果。


3 实验
实验部分主要包括以下内容:
数据集、指标和基线方法:使用了两个室内物体检测数据集,分别是ScanNet和ARKitScenes。ScanNet包含1201个训练扫描和312个测试扫描,检测使用轴对齐边界框(AABB);ARKitScenes包含4498个训练扫描和549个测试扫描,检测使用定向边界框(OBB)。评估指标为mAP@0.25和mAP@0.5。基线方法包括ImVoxelNet、NeRFDet和ImGeoNet,以及两阶段基线方法,其中Atlas和NeuralRecon用于重建3D点云,FCAF3D用于3D检测。
实现细节:使用MMDetection3D框架实现CN-RMA方法,设置特征通道数为32,聚合方法的权重阈值为0.05,损失权重为0.5。在射线行进中,为每个像素采样300个点,最大t设置为体积V的对角线长度。所有实验在4个NVIDIA A6000 GPU上进行,批大小为1。
比较结果:在ScanNet和ARKitScenes数据集上,CN-RMA方法表现优异,mAP@0.25和mAP@0.5均优于其他方法。与ImGeoNet相比,在ScanNet上mAP@0.25提高了3.8,mAP@0.5提高了8.4,在ARKitScenes上mAP@0.25提高了7.4,mAP@0.5提高了13.1。与Atlas和FCAF3D组合的两阶段基线相比,在ScanNet上mAP@0.25提高了3.2,mAP@0.5提高了3.0,在ARKitScenes上mAP@0.25提高了16.3,mAP@0.5提高了15.9。
消融研究:对不同聚合方案和超参数进行了消融研究,结果表明RMA方法在选择样本点的权重阈值为0.05时表现最佳。另外,对不同训练方案进行了消融研究,结果表明预训练MVS模块和检测网络,然后联合微调整个网络可以取得最佳性能。


4 总结
本文介绍了一种新颖的从多视图图像中进行室内3D物体检测的方法CN-RMA。作者的方法超越了先前的最先进方法,并优于两阶段基线。作者还提出了一种有效的考虑遮挡的技术,通过粗糙的场景TSDF将2D特征聚合到3D点云中,这对于将其整合到其他从多视图图像中理解3D场景的任务中具有潜力。未来的工作应集中于探索进一步提高CN-RMA性能的技术,例如研究替代的聚合方案或整合额外的上下文信息,这可能是有益的。作者期待通过解决这些限制并建立在我们的研究成果基础上,进一步推动3D室内物体检测和相关研究领域的进展。


本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
![]() | 硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 |
![]() | 硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 |
![]() | 硬件+源码+视频教程 | 御风250无人机(基于PX4) |
![]() | 配套标定源码 | 高精度标定板(玻璃or大理石) |
添加小助理:cv3d007或者QYong2014 咨询更多 |
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~