【导读】这是一篇来自ICCV2019的论文,由港中文的贾佳亚教授实验室完成。虽然名字很接近,但是Fast Point R-CNN不仅跟Fast R-CNN没有任何关系,它跟Point R-CNN也没太大关系,找前景点,做精细回归思想相近。三者唯一的共同点就是它们三个都是two-stage网络,但是网络结构完全不同。
如果要强行归类的话,Fast Point R-CNN应该算是VoxelNet一派的。这一点从网络结构图中可以看出。网络的第一阶段叫做VoxelRPN,类似于VoxelNet/SECOND的网络结构,用来对体素化的点云进行处理,网络由3D卷积层+2D的2D的RPN构成;网络的第二阶段是RefinerNet,将原始点云加入进来,并融入注意力机制,提高检测效果。从这个角度来看,这个网络应该叫Refiner-VoxelNet或许更为贴切(我胡说的)。
- 网络结构
下面仔细看下网络结构,首先是第一阶段的VoxelRPN:网络由四个BLOCK构成,第一个BLOCK由3D卷积核构成,用来对体素进行处理,逐渐把Z维度上降低到1,也就成了2D特征图了。后面三个BLOCK用来对这个2D特征图进行进一步的特征提取和融合。这里笔者根据网络结构计算了每个层的输出特征图的尺寸。