Shi, S., Guo, C., Jiang, L., Wang, Z., Shi, J., Wang, X., & Li, H. (2020). PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10529–10538. https://doi.org/10.1109/cvpr42600.2020.01054
摘要
我们提出了一种新颖且高性能的3D目标检测框架,称为PointVoxel-RCNN(PV-RCNN),用于从点云中准确地检测3D目标。我们的方法深度融合了3D体素卷积神经网络(CNN)和基于PointNet的集合抽象,以学习更具区分性的点云特征。它利用了3D体素CNN的高效学习和高质量提案以及基于PointNet网络的灵活感受野。具体而言,所提出的框架通过一个新颖的体素集合抽象模块,将3D场景总结为一小组关键点,以节省后续计算并编码具有代表性的场景特征。在由体素CNN生成的高质量3D提案的基础上,提出了RoI-grid池化,通过关键点集合抽象将提案特定的特征从关键点抽象到RoI-grid点。与传统的池化操作相比,RoI-grid特征点编码了更丰富的上下文信息,可用于准确估计对象的置信度和位置。在KITTI数据集和Waymo Open数据集上的大量实验证明,我们提出的PV-RCNN在3D检测方面超过了现有方法,并取得了显著的优势。
图1:我们提出的PV-RCNN框架通过两步策略(包括体素到关键点的3D场景编码和关键点到网格RoI特征抽象)深度融合了基于体素和基于PointNet的网络,以提高3D目标检测的性能。
图2:我们提出的PV-RCNN的总体架构。首先对原始点云进行体素化,然后输入3D稀疏卷积编码器以学习多尺度语义特征并生成3D目标提案。接着,通过新颖的体素集合抽象模块,将多个神经层的学到的体素-wise特征体积总结为一小组关键点。最后,将关键点特征聚合到RoI-grid点,学习提案特定的特征,用于精细的提案细化和置信度预测。
图3:预测关键点权重模块的示意图。
图4:RoI-grid池化模块的示意图。通过具有多个感受野的集合抽象操作,聚合了每个3D RoI的丰富上下文信息。