论文标题:CIA-SSD: Confident IoU-Aware Single-Stage Object Detector From Point Cloud
2021AAAI 香港中文大学出品
达到了不错的ap,速度也挺快的。
老规矩,上图!
文章框架很明了,主要是进行了三步操作:
首先是encode
利用second的框架,首先对于原始点云进行voxel化,随后ssc卷积生成dense feature map 这个dense是针对于z方向而言的。生成BEV feature map后输入到ssfa模块。
SSFA
SSFA模块分为两个group,对于spatial group,我们保持维度不变,进行卷积,使得feature的感受野变大。
对于semantic group 作者指出为了得到更高维的信息,进行一个spatial维度的降低,同时增大feature
的channel。
最后利用deconv恢复semantic group的feature维度。一支输送到spatial group将两个group的feature进行concat拼接。
另一分支则进行两个group的特征融合:
引入了自注意力机制。
随后对于得到的feature map执行多任务
head
为了消除confidence和iou预测值两者不匹配的问题,作者提出了一个新的辅助变量: IoU-Aware Confidence
主要思想就是原来的nms依靠于confidence,而作者通过实验发现预测出来的iou是有判别力的:
为了让预测出来iou较高的bbox能contribute更多,作者引入了一个超参数β,
随后与class score进行相乘,用这个数来进行nms操作。
这样做的好处是:让使得iou高与低的bbox的效果得到极化。
在训练过程中 iou与class score的预测分开来训练,只有推理的时候采用f来进行nms操作。
新nms:
主要思想就是多个bbox回归proposals。
感觉是一个通用的框架
我的思考:
快在哪?
文章前半部分仿照了second 后半部分进行2d卷积,主要的计算存在于3d卷积中,要说快在哪 我觉得是文章没有采用vfe来提取体素特征,而是直接采用平均法代表每个体素。
这样做的坏处就是体素化后 单个体素内点的信息损失了一部分。ap会有一些损失。
好在哪?
提出了iou来监督nms,iou的预测来进行网络参数后向传播也对于网络优化有一定的作用。
总之 文章提出了一个通用的nms 以后写文章可以借鉴