©PaperWeekly 原创 · 作者|刘泽
学校|微软亚洲研究院实习生
研究方向|计算机视觉与深度学习
无需 Grouping,中科大和微软亚研院提出 Group-Free 的三维物体检测方法,性能远超之前最好方法。
论文标题:
Group-Free 3D Object Detection via Transformers
论文链接:
https://arxiv.org/pdf/2104.00678
代码地址:
https://github.com/zeliu98/Group-Free-3D
近年来,从三维点云中直接检测三维物体得到了越来越多的关注。为了从不规则的点云中提取物体的特征,目前的方法通常都会借助点聚合操作(Point Grouping)为某个候选物体聚合对应的点,进而可以从聚合的点中提取候选物体的特征。
人们提出了许多不同的聚合策略,Frustum-PointNet [1] 首先使用二维图像生成二维候选框,再将二维候选框包含的三维空间中的点聚合在一起;Point R-CNN [2] 直接生成三维候选框,并将三维候选框中的点聚合在一起;VoteNet [3] 则通过 Hough Voting 将 voting 到同一或空间相近的物体中心的点聚合在一起。
尽管这些人工设计的聚合策略在目前的三维物体检测器中起到了至关重要的作用,但真实场景的复杂和多样性往往会导致这些点聚合方法产生错误(例如图1),并损害检测器的性能。
▲ [图1] 在人工设计的点聚合方法中,RoI-Pooling 的蓝色框和 Voting 的蓝色球中的所有点都被聚合到同一候选物体,从而产生了错误。本文的无需聚合(Group-Free)方法可以自动学习每个点对每个物体的贡献,从而可以缓解手工设计的聚合方法的弊端。
本文提出了一种简单而有效的方法从点云中直接检测三维物体,而不需要借助手工设计的点聚合策略。我们方法的核心在于使用 Transformer [4] 中的注意力机制来利用点云中的所有点来计算物体特征,每个点对物体的贡献通过网络训练而自动学习获得。
为了进一步发挥 Transformer 架构的优势,本文还提出了迭代式边界框预测(Iterative Box Prediction)与多阶段预测整合(Ensemble Multi-stage Predictions),进一步提升了物体检测的准确度。
我们提出的方法在两个被广泛使用的三维物体检测基准测试 ScanNet V2 和 SUN RGB-D 中都取得了目前最好的表现。其中,SUN RGB-D 取得了 62.8 mAP@0.25 和 42.3 mAP@0.5,ScanNet V2 则取得了 69.1mAP@0.25 和 52.8 mAP@0.5,远超之前的方法。
方法介绍
在基于点云的三维物体检测中,检测器的输入是个点的集合