论文与CenterNet:Object as points 文章的思想很相似。以行人检测为例将目标检测简化为一个直接的全卷积式的中心点和尺度预测任务,CSP (Center and Scale Prediction) 检测器结构简单。首先将一张图像输入全卷积网络,基于网络提取的特征图预测两个映射图,一个以热图的方式呈现目标的中心点位置,一个负责预测目标的尺度。在此基础上,便可以将两者映射到原图上并解译成目标检测框:中心点热图的位置对应检测框的中心位置,预测的尺度大小对应检测框的大小,而中心点热图上的置信度则对应检测框的得分。该算法在行人检测和面部检测数据集上做了实验,准确率有竞争力。
图25 CSP整体架构示意图图
网络包括两个部分:特征提取和检测。前者把不同分辨率的特征图连在一起,后者是卷积层和两个预测层,分别对应中心位置和尺度大小。基于上述特征图,检测头负责将特征图解译成检测结果。在检测头模块中,首先接上一个 3x3 卷积层将输入特征图的维度压缩到 256,然后接上两个并联的 1x1 卷积层产生目标中心点热图和目标尺度预测图,这样相较于 R-CNN 及