CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019

最新推荐文章于 2024-03-27 16:04:22 发布

晓飞的算法工程笔记

最新推荐文章于 2024-03-27 16:04:22 发布

阅读量328

点赞数

分类专栏：晓飞的算法工程笔记文章标签：算法机器学习人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/lichlee/article/details/118151145

版权

晓飞的算法工程笔记专栏收录该内容

208 篇文章 23 订阅

订阅专栏

CSP算法提出将目标检测定义为预测中心点和尺寸，简化了传统RCNN方法。网络结构包含特征提取和预测两部分，使用ResNet-50并调整以预测中心点和尺寸。训练时，通过高斯核和focal loss处理正负样本不平衡。测试时，直接前向推理并进行NMS处理。此方法与CenterNet思路相似，适用于行人和人脸检测。

摘要由CSDN通过智能技术生成

CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，真是英雄所见略同

来源：晓飞的算法工程笔记公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

论文地址：https://arxiv.org/abs/1904.02948
论文代码：https://github.com/liuwei16/CSP

Introduction

目前一些研究基于深度卷积网络进行边缘检测，获得了不错的效果。论文认为既然卷积网络能够预测边缘，那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的目标定义为中心点及尺寸，提出了CSP(Center and Scale Prediction)

CSP的网络结构大致如图1所示，在主干网络上分别预测目标中心点的位置及其对应的尺寸。这篇文章的整体思想与CenterNet(zhou. etc)基本一致，但不是抄袭，因为是同一个会议上的论文，CenterNet主要研究常规的目标检测，而这篇主要研究人脸检测和行人检测。但CSP仍然需要进行NMS的后处理，较CenterNet更逊色一些，但不妨碍我们进行简单地了解，包括学习论文的训练方法以及参数。

Overall architecture

CSP检测算法的结构如图2所示，主干网络由ImageNet的预训练网络截断所得，主要分为特征提取部分以及预测部分。

Feature Extraction

以ResNet-50为例，卷积层分为五个阶段，下采样比例分别为2、4、8、16和32，论文进行了以下修改与设置：

将第五阶段的卷积更换为空洞卷积，使其保持下采样比例为16。
为了融合浅层和高层特征，在Concatenate前将多阶段输出进行反卷积扩大至同一分辨率。
由于不同阶段特征图的分辨率不同，使用L2-normalization将各阶段特征图的范数缩放为10。
论文通过实验最终只选用了第3、第4和第5阶段的特征进行检测。
给定大小为 $H\times W$ 的输入图片，最终的concatenated特征图大小为 $H/r \times W/r$ ，r为4时性能最好。

Detection Head

在获得concatenated特征图 $\Phi_{det}$ 后，使用简单的detection head将特征转化为检测结果。首先采用 $3\times 3$ 卷积层输出256维特征，然后分别使用 $1\times 1$ 卷积层来产生偏移值预测，尺寸图和中心点热图。

Training

Ground Truth

给定GT标注，能够自动地生成对应的GT中心点位置和尺寸。将GT标注对应特征图上的位置设定为中心点正样本，其它位置均为负样本。尺寸可定义为目标的高和宽，对于使用line annotation标注的行人数据集，其长宽比固定为0.41，仅需预测高度即可。对于GT尺寸，正样本位置 $k$ 的值定义为 $log(h_k)$ ，在其半径范围2以内的位置也设为同样的值，其余设置为零。而若加入偏移值预测分支，该分支的GT定义为 $(\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor \frac{y_k}{r} \rfloor )$ 。