前言
可以先看一下讲解的cornernet:
【2D 目标检测】CornerNet: Detecting Objects as Paired Keypoints_JY.Wang_China的博客-CSDN博客
一 核心思路
本文也是在Waymo上的2020年排名第一的方法,是One-stage的3D detection的方法。主要是将point cloud映射到voxel的网格中,文章用到的映射方法为PointPillar,然后通过5个head分别预测物体不同的特征,最后进行回归预测得出最终的预测结果。总体思路见下图所示:
二 核心步骤
作者将本文的算法框架分为三个方面:point cloud encoder、backbone and necks和anchor free detector。
2.1 Point Cloud Encoder
作者采用PointPillar的方法生成类图像的BEV特征图,其中W和H分别表示宽和高;F表示PointPillar最终得到的单个pillar的特征维度。
2.2 Backbone and Necks
上图为backbone and necks的整体结构。分为backbone part和neck part。Backbone part负责特征的下采样操作;neck part用于对特征进行上采样,以确保不同block的所有输出具有相同的空间大小,以便沿着一个轴将它们连接起来。
最终得到的feature map。
2.3 Anchor Free Detector
这里是本文提出的最重要的创新点,也是实现anchor-free的基础。本方法提出5个head分别处理不同的检测label,这5个head分别是keypoint heatmap head、local offset head、z-axis location head、3D object size和orientation head。
从backbone and necks输出的feature map可知,feature map的W和H均与原始的pillar划分大小无差,所以这5个head的大小也为W和H。之后就是每一个head的特征维度有所差异。
对于类别为ck的三维物体k,我们将其3D ground truth参数化为,其中表示3D ground truth 的Lidar coordinate下的center location;表示width、length、height;表示航向角。