CSP:Object as Point同会议论文,相似思想用于人脸和行人检测 | CVPR 2019

CSP算法提出将目标检测定义为预测中心点和尺寸,简化了传统RCNN方法。网络结构包含特征提取和预测两部分,使用ResNet-50并调整以预测中心点和尺寸。训练时,通过高斯核和focal loss处理正负样本不平衡。测试时,直接前向推理并进行NMS处理。此方法与CenterNet思路相似,适用于行人和人脸检测。
摘要由CSDN通过智能技术生成

CSP将目标定义为中心点和尺寸,通过网络直接预测目标的中心和寸尺,相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了,真是英雄所见略同

来源:晓飞的算法工程笔记 公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

Introduction


  目前一些研究基于深度卷积网络进行边缘检测,获得了不错的效果。论文认为既然卷积网络能够预测边缘,那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的目标定义为中心点及尺寸,提出了CSP(Center and Scale Prediction)

  CSP的网络结构大致如图1所示,在主干网络上分别预测目标中心点的位置及其对应的尺寸。这篇文章的整体思想与CenterNet(zhou. etc)基本一致,但不是抄袭,因为是同一个会议上的论文,CenterNet主要研究常规的目标检测,而这篇主要研究人脸检测和行人检测。但CSP仍然需要进行NMS的后处理,较CenterNet更逊色一些,但不妨碍我们进行简单地了解,包括学习论文的训练方法以及参数。

Overall architecture


  CSP检测算法的结构如图2所示,主干网络由ImageNet的预训练网络截断所得,主要分为特征提取部分以及预测部分。

Feature Extraction

  以ResNet-50为例,卷积层分为五个阶段,下采样比例分别为2、4、8、16和32,论文进行了以下修改与设置:

  • 将第五阶段的卷积更换为空洞卷积,使其保持下采样比例为16。
  • 为了融合浅层和高层特征,在Concatenate前将多阶段输出进行反卷积扩大至同一分辨率。
  • 由于不同阶段特征图的分辨率不同,使用L2-normalization将各阶段特征图的范数缩放为10。
  • 论文通过实验最终只选用了第3、第4和第5阶段的特征进行检测。
  • 给定大小为 H × W H\times W H×W的输入图片,最终的concatenated特征图大小为 H / r × W / r H/r \times W/r H/r×W/r,r为4时性能最好。

Detection Head

  在获得concatenated特征图 Φ d e t \Phi_{det} Φdet后,使用简单的detection head将特征转化为检测结果。首先采用 3 × 3 3\times 3 3×3卷积层输出256维特征,然后分别使用 1 × 1 1\times 1 1×1卷积层来产生偏移值预测,尺寸图和中心点热图。

Training


Ground Truth

  给定GT标注,能够自动地生成对应的GT中心点位置和尺寸。将GT标注对应特征图上的位置设定为中心点正样本,其它位置均为负样本。尺寸可定义为目标的高和宽,对于使用line annotation标注的行人数据集,其长宽比固定为0.41,仅需预测高度即可。对于GT尺寸,正样本位置 k k k的值定义为 l o g ( h k ) log(h_k) log(hk),在其半径范围2以内的位置也设为同样的值,其余设置为零。而若加入偏移值预测分支,该分支的GT定义为 ( x k r − ⌊ x k r ⌋ , y k r − ⌊ y k r ⌋ ) (\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor \frac{y_k}{r} \rfloor ) (rxkrxk,rykryk)

Loss Function

  对于中心点预测分支,将其视为分类任务使用交叉熵损失进行训练。为了让训练更加平滑,跟CornerNet一样定义高斯核,在特征图上对GT点进行半径范围内的扩展:

K K K为图片中的目标数, ( x k , y k , w k , h k ) (x_k, y_k, w_k, h_k) (xk,yk,wk,hk)为中心坐标以及宽高,方差 ( σ w k , σ h k ) (\sigma^k_w, \sigma^k_h) (σwk,σhk)与目标的高和宽成比例,如果高斯区域有重叠,则取最大值。为了防止正负样本极度不平衡,加入focal loss的权值进行平衡:

p i j ∈ [ 0 , 1 ] p_{ij}\in [0,1] pij[0,1]代表网络预测该位置为目标中心的概率, y i , j ∈ 0 , 1 y_{i,j}\in {0, 1} yi,j0,1代表GT标签。
  对于尺寸预测,将其视为回归任务使用smooth L1损失进行训练:

s k s_k sk t k t_k tk分别代表网络预测结果和每个目标的GT。如果使用了偏移值分支,则同样将其视为回归任务进行训练。完整的优化目标为:

λ c \lambda_c λc, λ s \lambda_s λs, λ o \lambda_o λo分别设置为0.01,1和0.1

Inference


  在测试的时候,CSP直接进行简单的前向推理,保留中心热图中置信度大于0.01的位置及其尺寸结果,生成对应的预测框并映射到原图尺寸,对所有保留的预测结果进行NMS处理。如果使用了偏移值预测分支,则对映射后的中心点进行调整。

Conclusion


  CSP将目标定义为中心点和尺寸,通过网络直接预测目标的中心和寸尺,相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了,发表于同一期会议,真是英雄所见略同了。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值