论文信息
题目:Joint 3D Proposal Generation and Object Detection from View Aggregation
问题导入
类似于 F-PointNet, 本文想要将成熟的 2D 检测器相关技术迁移到 3D 检测上,作者认为将点云投影到 FV 或者 BEV 上可能没有足够的信息生成候选区域,特别是小目标。本文仍然采用 RGB 与 BEV 作为模型输入。
总体思路
如上图所示,首先,利用 RGB 和 BEV 分别经过特征提取网络得到高分辨率特征图;其次,分别对两种特征图进行 1x1 卷积(减少参数量, 类似于 FC,最初来自 NIN),借助 3D anchor 对两种特征图进行融合,经过 FC 和 NMS 得到无向的 3D 候选框;最后,将 3D 候选区域与原本的两个特征图融合,再利用检测器预测定向的 3D 框及目标类别。
论文效果
如上图所示,这是定性分析,在 KITTI 验证集上与 MV3D 和 Deep3DBox 做对比,突出了方向预测的提升。
如上图所示,这是定量分析,在 KITTI 测试集上与 MV3D, VoxelNet 以及 F-PointNet 做了对比,突出了帧率的提升,但在小目标检测效果上并没有赶上 F-PointNet。
总结
本文借助了很多 2D 检测器的 tricks,实现了计算效率的提升,但由于点云处理不佳,损失了部分 3D 信息,导致后期对行人和骑行者的检测精度较低。