论文标题:Center-based 3D Object Detection and Tracking
一篇基于中心的3d目标检测文章,2021年
文章在waymo、nuscene上做了实验。还是比较充分的。
和其他一些anchorbased的方法进行了对比 突出了其优越性。
废话不多说 上图!
该网络是一个二阶段的网络:
RPN
首先对点云进行voxel处理,从后面的实验可以看出作者用了两种backbone ——voxlenet和pointpillar,主要做法就是对于voxel后的点云进行3d卷积,最后投影到bv图中,我们便得到了一个H×W×F的特征图。其中F就是对每个voxel编码的特征channels。
最后再设计类似centernet的head,输出heatmap,用峰值预测物体中心,设计长宽预测。这里有些新的head例如偏移量o、角度、离地高度hg等。由此我们便得到了bbox四条边的中心在那个地方。这个head操作是一系列2d卷积。
score and 3d boxes
第二阶段利用了第一阶段输出的feature map 取中心点和四条face上的点的feature进行一个concat拼接。输入到mlp中进行编码,随后输出score和细化的bbox。
对于score预测作者引入了一个新的target函数:
实际上是为了把介于正负样本阈值之间的bbox利用起来。
最后输出的confidence score是两阶段的score的一个合计。
这篇文章的实验部分也是值得看一下的,做的很详细:
首先是实验结果,作者在waymo和nusence上做的实验:
waymo上给了level1 2 的map,80出头 当时效果还是很好的。
随后的消融实验,作者进行了center based 和anchor based的比较,说明centerbased的效果是要强于anchorbased的
随后对于第二阶段的必要性,作者给出了实验结果,主要是对于第二阶段的feature选哪些地方作者进行了实验,说明第二阶段的重要性:
最后对于第二阶段的feature类型进行了更换:
rbf指的是对于face点进行rbf插值 就是对于face点附近的三个feature进行插值 具体方法类似pointnet++
思考:
看的第一篇3d centerbased的文章,与2d centernet有所不同的是人家分了两阶段来做,我猜这样可能是考虑到点云的稀疏性,作者想利用起来落在物体表面的点来进行一个预测的优化,在数据集上产生了不错的效果。
如果去掉第二阶段我们可以看成利用3d目标卷积后强制生成伪图像随后进行2d卷积预测 设计类似的detector head。
本文还考虑了计算速度和目标跟踪的问题,我这块了解得少 就跳过了。