CVPR2019目标检测方法进展综述

最新推荐文章于 2020-10-22 15:23:26 发布

Ziven1997

最新推荐文章于 2020-10-22 15:23:26 发布

阅读量389

点赞数

分类专栏：目标检测

原文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/88687747

版权

目标检测专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文转载自https://blog.csdn.net/SIGAI_CSDN/article/details/88687747

目标检测是很多计算机视觉应用的基础，比如实例分割、人体关键点提取、人脸识别等，它结合了目标分类和定位两个任务。现代大多数目标检测器的框架是 two-stage，其中目标检测被定义为一个多任务学习问题：1）区分前景物体框与背景并为它们分配适当的类别标签；2）回归一组系数使得最大化检测框和目标框之间的交并比（IoU）或其它指标。最后，通过一个 NMS 过程移除冗余的边界框（对同一目标的重复检测）。

本文首先综述近年来二维目标检测的优化方向，之后介绍CVPR2019目标检测最新进展，包括优化IoU的GIoU，优化anchor设计的GA-RPN，以及single-stage detection的FSAF(Feature Selective Anchor-Free Module for Single-Shot Object Detection)。

二维目标检测的优化方向

二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。

1. 基于目标检测的backbone和特征提取

目标检测的backbone一般基于ImageNet预训练的图像分类网络。图像分类问题只关注分类和感受视野，不用关注物体定位，但是目标检测领域同时很关注空间信息。如果下采样过多，会导致最后的feature map很小，小目标很容易漏掉。很多基础架构网络，比如ResNet、Xception、DenseNet、FPN、DetNet、R-CNN，PANet、等神经网络提取图像的上下文信息，不断在特征提取方向优化。

2. 基于优化的算法

包括UnitBox，IoU-Net[1]，旷视科技ECCV2018有一篇论文是引入IoU-Net，其能预测检测到的边界框和它们对应的真实目标框之间的 IoU，使得该网络能像其分类模块一样，对检测框的定位精确程度有所掌握，神经网络在Backbone引入IoU-Net做边界修订。

3. 基于优化损失函数的方法

包括L1和L2，Focal loss等。

4. 基于优化NMS的方法

包括Soft-NMS, Softer-NMS, 以及Relation Netwrok，ConvNMS，NMS Network，Yes-Net等，详细可参看本人一篇笔记《目标检测算法中检测框合并策略技术综述》[2]。

5. 基于Anchor生成的算法

比如Sliding window、Region Proposal Network (RPN) 、CornerNet、meta-anchor等。

6. One-shot learning以及Zero shot learning

它们都属于迁移学习领域，主要研究的是网络少样本精准分类问题，单样本学习能力。CVPR2019有一篇基于one-shot learning[7]，值得关注。

CVPR2019目标检测最新进展

1. GIoU — Generalized IoU

Motivation

在目标检测的评价体系中，有一个参数叫做 IoU (Intersection over Union)，简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为：即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU :

$\frac{DetectionResult \bigcap GroundTruth}{DetectionResult\bigcup GroundTruth}$ $(ω = σ \times s \times e^{d w}, h = σ \times s \times h^{d w})$

进行压缩，将搜索范围从[0，1000]压缩至[-1,1]。

3. Feature Adaption

由于每个位置的anchor形状不一样，所以不能直接利用F_I进行1x1的卷积预测每个anchor的结果，而应该对feature map进行adaption，也就是大一点的anchor对应的感受野应该大一点，小一点的anchor对应的感受野应该小一点，于是作者想到用可变形卷积的思想。先对每个位置预测一个卷积的offset（1x1卷积，输入为shape prediction），然后根据该offset field进行3x3的可变形卷积就完成了对feature map的adaption。通过这样的操作，达到了让 feature 的有效范围和 anchor 形状更加接近的目的，同一个 conv 的不同位置也可以代表不同形状大小的 anchor 了。

优缺点分析

优点：

论文提出anchor设计的两个准则：alignment 和 consistency，指导基于anchor优化的方向。采用位置预测和形状预测两个分支，不需要像FPN预先设置尺度和长宽比，同时使用可变形卷积对feature map调整，生成高质量低密度的proposal，提高IoU的阈值进行训练。
提出了一种新的anchor策略，用于产生稀疏的任意形状的anchor；
论文提出的GA-RPN可以完全替代RPN，在Fast R-CNN, Faster R-CNN and RetinaNet等模型基础上提高目标检测模型的精度。

缺点：

论文假设图像中的目标是稀疏的。如果是稠密图像，比如车站或广场的拥挤人群，检测效果有待检验。
每一个点只产生一个anchor，那么对于那些目标中心重合，即一个点需要负责检测两个目标，似乎无法处理。
采用deformable卷积会相对地降低速度，同时根据DCN v2的分析，在deformable卷积中加入可调节的机制可能会更好。

3. FSAF — Feature Selective Anchor-Free Module for Single-Shot Object Detection

论文来自于CMU，基于single-stage提出的FSAF模型[6]，在COCO目标检测数据集实现single-stage state-of-the-art，44.6% mAP，且推断延时没有增加。

Motivation

物体的多尺度信息一直是目标检测的难点和痛点。CNN的低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。Feature Pyramid Network（FPN）它利用多级的feature map去预测不同尺度大小的物体，其中高层特征带有高级语义信息和较大的感受野，适合检测大物体，浅层特征带有低级的细节语义信息和较小的感受野，适合检测小物体。FPN逐步融合深层特和浅层特征，使得逐步增加浅层的特征的高级语义信息来提高特征表达能力，提升检测效果，已经成为目标检测领域的标配。

但是FPN有一个隐藏条件：如何选择合适feature map负责检测物体。在GA-RPN提出两个原则，1.alignment，为了用卷积特征作为anchor的表示，anchor的中心需要和特征图的像素中心比较好地对齐；2.consistency，不同位置(不同卷积层)对应的anchor的形状和大小应该一致。two-stage通过各种pool（Faster R-CNN使用RoI pooling，Mask R-CNN使用RoIAlign）实现特征图的对齐，而single-stage一般通过anchor size的方式选择合适的anchor。

如图 4所示，60x60大小的car和50x50大小的car被分在了不同feature map，50x50和40x40的被分在了同一级feature map，无法证明feature level选择的问题。

图4. Feature Level 选择

论文提出的FSAF模块就是为了解决特征图选择和重叠anchor选择，既FSAF模块让每个anchor instance自动的选择最合适的feature。

Network Structure

图5. FSAF模块网络架构图

文章提出的FSAF以RetinaNet为主要结构，添加一个FSAF分支图 5和原来的class subnet、regression subnet并行，可以不改变原有结构的基础上实现。在class subnet分支添加3x3卷积层（K个滤波器），得到WxHxK的特征图，预测K类目标所属类别的概率。regression subnet分支添加3x3卷积层（4个滤波器），得到WxHx4的特征图，预测回归框的偏移量。

FSAF还可以集成到其他single-stage模型中，比如SSD、DSSD等。

FSAF的设计就是为了达到自动选择最佳Feature的目的，如图 6所示，最佳Feature是由各个feature level共同决定。

图6. Online Feature Selection Mechanism

在训练过程，每个anchor通过FPN各卷积层，经过anchor-free计算focal loss和IoU loss，最佳的pyramid level通过最小化focal loss和IoU loss实现。

在推断时，直接选择高置信度的特征金字塔的level即可实现。
论文提出的FSAF模型在COCO数据集实现single-stage state-of-the-art，44.6% mAP，且推断时延没有增加，详细实验数据可参看原论文。

优缺点分析

论文提出的anchor-free，是说不在根据anchor size提取特征，而是根据FSAF模块自动选择合适的feature，既anchor (instance) size成为了一个无关的变量。不是说不在使用anchor的方式。
FSAF可以集成到其他single-stage模型中，比如SSD、DSSD等。

参考文献

[1]B. Jiang, R. Luo, J. Mao, T. Xiao, and Y. Jiang. Acquisition of localization confidence for accurate object detection.In Proceedings, European Conference on Computer Vision (ECCV) workshops, 2018.
[2]目标检测算法中检测框合并策略技术综述.https://zhuanlan.zhihu.com/p/48169867
[3] Hamid Rezatofighi,Nathan Tsoi1 JunYoung Gwak, Amir Sadeghian, Ian Reid, Silvio Savarese. Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.
[4] Jiaqi Wang, Kai Chen,Shuo Yang, Chen Change Loy,Dahua Lin. Region Proposal by Guided Anchoring. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.
[5]CornerNet:目标检测算法新思路.https://zhuanlan.zhihu.com/p/41825737
[6] Chenchen Zhu,Yihui He,Marios Savvides.Feature Selective Anchor-Free Module for Single-Shot Object Detection. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.
[7]Leonid Karlinsky, Joseph Shtok, Sivan Harary.RepMet: Representative-based metric learning for classification and few-shot object detection. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.
[8]Peiliang Li, Xiaozhi Chen, Shaojie Shen. Stereo R-CNN based 3D Object Detection for Autonomous Driving. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.