ILSVRC2016目标检测任务回顾(图像视频目标检测)

最新推荐文章于 2024-07-29 09:11:11 发布

u012507022

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量2.4w

点赞数 4

分类专栏： Deep Learning Computer vision 文章标签：计算机视觉深度学习

Computer vision 同时被 2 个专栏收录

18 篇文章 8 订阅

订阅专栏

Deep Learning

11 篇文章 1 订阅

订阅专栏

源：http://mp.weixin.qq.com/s__biz=MzI1NTE4NTUwOQ==&mid=2650325798&idx=1&sn=cef67fc7bb75d0f0bae641d6b385fb3d&chksm=f235a42cc5422d3a718dee91db795142f1eb321c0f6a2a65973b68d3dacdb29c34d33ebbb3c5&scene=21#wechat_redirect

一、图像目标检测（DET）

计算机视觉领域权威评测——ImageNet大规模图像识别挑战赛（Large Scale Visual Recognition Challenge）自2010年开始举办以来，一直备受关注。2016年，在该比赛的图像目标检测任务中，国内队伍大放异彩，包揽该任务前五名（如图1所示）。我们将根据前五名参赛队伍提交的摘要与公开发表的论文或技术文档，简析比赛中用到的图像目标检测方法。

图1. ILSVRC2016目标检测（无额外数据）任务比赛结果

总体上说，参赛队伍大多采用ResNet/Inception网络+Faster R-CNN框架，注重网络的预训练，改进RPN，并利用Context信息，测试时结合普遍被使用的多尺度测试、水平翻转、窗口投票等方法，最终融合多个模型得到结果。

下面我们将细数参赛方法中的诸多亮点。

1.利用Context信息

GBD-Net

GBD-Net（Gated Bi-Directional CNN [1]）是CUImage团队的成果，也是今年DET任务中的一大亮点。该方法利用双向门控的CNN网络在不同尺度的上下文窗口中选择性地传递信息，以此对context建模。

GBD-Net的研究动机源于对context信息在候选窗口分类过程中起到的作用的仔细分析。首先，Context信息在对窗口分类时能起到关键的作用，如图2(a)(b)所示，图中的红框必须结合Context信息才能准确判断其类别（包括判断为背景）。所以很多时候，我们可以利用context信息作出如图1(c)所示的判断。但是如图1(d)所示，并不是所有的context信息都能给我们正确的指导，所以context信息需要选择性的利用。

图2. GBD-Net的研究动机[1]

基于这一点，CUImage提出了GBD-Net。如图3所示，GBD-Net采集Context信息的方式与[2][3]一脉相承，直接在目标窗口基础上放大窗口以获得更多的context信息，或缩小窗口以保留更多的目标细节，以此得到多个support region，双向连接的网络让不同尺度和分辨率的信息在每个support region之间相互传递，从而综合学习到最优的特征。然而如研究动机中所说，并非所有的上下文信息都能给决策带来“正能量”，所以在双向互通的连接上都加了一个“门”，以此控制context信息的相互传播。GBD-Net在ImageNet DET数据集上，在ResNet-269为基础网络，带来了2.2%的mAP提升。

图3. GBD-Net框架图[1]

Dilation as context

360+MCG-ICG-CAS_DET团队[12]将[4]中提出的用膨胀卷积获取context信息的方法迁移至目标检测任务，将[4]中的8个膨胀卷积层削减到3层，在ROI pooling前就组织好每个像素点对应的context信息，如图4，省去了对每个ROI反复提取context特征的操作。该方法在VOC07数据集上，以Res50为基础网络，能获得1.5%的提升。

图4. Dilation as context方法示意图

Global context

2015年[5]中提到利用ROI pooling对全图进行pooling获取context信息的方法，Hikvision团队在此基础上进一步细化，提出了图5(a)所示的global context方法，在ILSVRC DET验证集上获得了3.8%的mAP性能提升。该方法此前的文章[13]中有详细描述，此处不再赘述。

除了基于ROI pooling的global context方法，CUImage沿用[6]中提到的global context方法，为每个ROI加入全局的分类结果信息，如图5(b)示。该方法在GBD-net局部context的基础上又加入了全局的context信息，进一步将mAP提高了1.3%。

图5. Global context方法示意图

2.改进分类损失

360+MCG-ICG-CAS_DET团队提出了两种改进的softmax损失[12]：将背景类分成若干隐式子类别（Implicit sub-categories for background）、必要时加入sink类别（Sink class when necessary）。

Faster R-CNN中将所有与Ground Truth的IOU大于0.5的窗口当做正样本，IOU介于0.1~0.4之间的当做背景类别样本，所以虽然正常目标类别的样本之间有较大的相似性，但背景类别的样本之间差异却非常大，在这种情况下，仍然同等对待目标类别和背景类别对背景类别来说是不公平的。所以背景隐式子类别方法将背景类别分为若干个子类别，想让更多的参数去描述多变的背景，在softmax之前重新将所有子类别聚合为一个背景类，以避免显式定义各个子类别的问题（如图6(a)所示）。

图6 改进分类损失

另外，由于训练数据本身的一些冲突性（比如同样的图像内容在不同场景下会同时成为正样本和负样本，或不同类别的样本之间非常相似），对于某些窗口，ground truth类别的得分始终不是很高，而其他一些错误类别的得分会超过ground truth类别。所以sink方法加入一个sink类，在ground truth得分不在Top-K时，同时优化sink类别和ground truth类别，否则正常优化ground truth类别。以此将那些错误类别上的得分引流到sink类别上，使得在对窗口分类时，即使ground truth类别得分不是特别高，仍然可以高于其他类别，如图6(b)所示。

3.改进RPN

CUImage和Hikvision都提出改进RPN，并且两者的改进策略都源于CRAFT[7]（如图7所示），在RPN之后再连接一个二分类的Fast R-CNN，进一步减少窗口数量并提高定位精度。

图7 CRAFT[7]

CUImage进一步将CRAFT升级为CRAFT-v3，训练过程加入随机crop，测试中采取多尺度策略，并且平衡正负样本比例，用2个模型进行融合，将ILSVRC DET val2上的recall@300 proposal提升到95.3%[14]。

Hikvision则是直接按照box refinement的思想，直接在RPN网络基础上进行一次级联，如图8所示。同时他们注意到，Faster R-CNN在理想情况下希望PRN的正负样本比是1：1，而实际运行中，正样本数量往往较少，使得正负样本比差异较大，所以将正负样本比强制限制在不超过1：1.5后，recall提升3%。

图8 级联的RPN[15]

4.网络选择与训练技巧

自ILSVRC2015后，ResNet[4]和后续的Inception v4[8]，Identity mapping[9]由于其强大的分类性能，被广泛使用到目标检测、场景分割等应用中。不同的网络通常能收敛到不同的极值点，这种网络差异性是模型融合获得较大提升的关键。CUImage、Hikvision、Trimps Soushen、360+MCG-ICT-CAS_DET、NUIST都用不同的基础网络训练了多个模型用于融合。

在训练目标检测模型之前，具有针对性的模型预训练通常可以使得最后训练的目标检测模型能收敛到更优的位置。Hikvision提到在初始化global context的分支时使用预训练的模型效果远远好于随机初始化。另外，他们用ILSVRC LOC的数据首先在1000个类别上预训练一个精细分类的目标检测模型，再迁移到DET数据上训练200类的模型。CUImage同样提到模型预训练的重要性。他们在1000类Image-centric方式训练分类网络后，又采取基于ROI-Pooling的Object-centric方式训练分类网络，预训练网络使最终目标检测模型的mAP提升约1%。

此外，Hikvision提出在训练过程中强制平衡正负样本比会产生积极的影响。OHEM[10]、多尺度训练等技巧都是简单有效的提高mAP的方式。

5.测试技巧

测试过程中可采用的技巧很多，会对最终目标检测结果起到锦上添花的作用。多尺度测试、水平翻转、窗口微调与多窗口投票、多模型融合、NMS阈值调整、多模型融合等方法被广泛使用，并经过普遍验证证明了其有效性。

Trimps Soushen、360+MCG-ICT-CAS_DET采用了Feature Maxout[11]的方法融入多尺度测试，尽量让每个窗口都缩放到接近224x224的尺度上进行测试，充分利用预训练网络的性能。窗口微调与多窗口投票（box refinement and box voting[2]）方法首先利用Fast R-CNN系列框架中对窗口进行回归的这个过程，反复迭代，然后用所有窗口投票，决定最终的目标类别与位置。在往年比赛中很少提到目标检测如何进行模型融合，ILSVRC2016中，CUImage[14]、Hikvision[15]、Trimps Soushen[16]、360+MCG-ICT-CAS_DET[12]都采用了几乎一致的融合策略，即先用一个或多个模型的RPN网络产生固定的ROI，再把这些ROI经过不同模型得到的分类和回归结果相加，得到最终的融合结果。经过多种融合方法的实验，分数相加的方式能获得较好的融合性能。

总结

本文对2016年ILSVRC DET任务中用到的方法进行了概括性的归纳和介绍。目标检测系统步骤甚多，过程繁琐，其中的每一个细节都非常重要。研究过程中，在把握整体结构的同时，如何处理好重要的细节会成为一种方法是否有效的关键。

参考文献

[1] Zeng, Xingyu, et al. "Gated bi-directional cnn for object detection." European Conference on Computer Vision. Springer International Publishing, 2016.

[2] Gidaris, Spyros, and Nikos Komodakis. "Object detection via a multi-region and semantic segmentation-aware cnn model." Proceedings of the IEEE International Conference on Computer Vision. 2015.

[3] Zagoruyko, Sergey, et al. "A MultiPath Network for Object Detection." arXiv preprint arXiv:1604.02135 (2016).

[4] Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).

[5] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv preprint arXiv:1512.03385 (2015).

[6] Ouyang, Wanli, et al. "Deepid-net: Deformable deep convolutional neural networks for object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

[7] Yang, Bin, et al. "Craft objects from images." arXiv preprint arXiv:1604.03239 (2016).

[8] Szegedy, Christian, Sergey Ioffe, and Vincent Vanhoucke. "Inception-v4, inception-resnet and the impact of residual connections on learning." arXiv preprint arXiv:1602.07261 (2016).

[9] He, Kaiming, et al. "Identity mappings in deep residual networks." arXiv preprint arXiv:1603.05027 (2016).

[10] Shrivastava, Abhinav, Abhinav Gupta, and Ross Girshick. "Training region-based object detectors with online hard example mining." arXiv preprint arXiv:1604.03540 (2016).

[11] Ren, Shaoqing, et al. "Object detection networks on convolutional feature maps." arXiv preprint arXiv:1504.06066 (2015).

[12] Sheng Tang, Yu Li, Bin Wang, Junbin Xiao, Rui Zhang etal. "MCG-ICT-CAS Object Detection at ILSVRC 2016" (Slides), the Second ImageNet and COCO Visual Recognition Challenges Joint Workshop in conjunction with ECCV 2016, http://image-net.org/challenges/talks/2016/MCG-ICT-CAS-ILSVRC2016-Talk-final.pdf

[13] 钟巧勇“技术揭秘：海康威视PASCAL VOC2012目标检测权威评测夺冠之道”，深度学习大讲堂往期文章http://chuansong.me/n/839745651477

[14] Wanli Ouyang, Junjie Yan, Xingyu Zeng etal. “Crafting GBD-Net”(Slides), the Second ImageNet and COCO Visual Recognition Challenges Joint Workshop in conjunction with ECCV 2016, http://image-net.org/challenges/talks/2016/GBD-Net.pdf

[15] Qiaoyong Zhong, Chao Li, Yingying Zhang etal. “Towards Good Practices for Recognition & Detection” (Slides), the Second ImageNet and COCO Visual Recognition Challenges Joint Workshop in conjunction with ECCV 2016, http://image-net.org/challenges/talks/2016/Hikvision_at_ImageNet_2016.pdf

[16] Jie SHAO, Xiaoteng ZHANG, Zhengyan DING etal. “Good Practices for Deep Feature Fusion” (Slides), the Second ImageNet and COCO Visual Recognition Challenges Joint Workshop in conjunction with ECCV 2016, http://image-net.org/challenges/talks/2016/Trimps-Soushen@ILSVRC2016.pdf

[17]ILSVRC2016比赛结果http://image-net.org/challenges/LSVRC/2016/results

[18] Dai, Jifeng, et al. "R-FCN: Object Detection via Region-based Fully Convolutional Networks." (2016).

二、视频目标检测(VID)

图像目标检测任务在过去三年的时间取得了巨大的进展，检测性能得到明显提升。但在视频监控、车辆辅助驾驶等领域，基于视频的目标检测有着更为广泛的需求。由于视频中存在运动模糊，遮挡，形态变化多样性，光照变化多样性等问题，仅利用图像目标检测技术检测视频中的目标并不能得到很好的检测结果。如何利用视频中目标时序信息和上下文等信息成为提升视频目标检测性能的关键。

ILSVRC2015新增加了视频目标检测任务（Object detection from video, VID），这为研究者提供了良好的数据支持。ILSVRC2015的VID评价指标与图像目标检测评价指标相同——计算检测窗口的mAP。然而对于视频目标检测来说，一个好的检测器不仅要保证在每帧图像上检测准确，还要保证检测结果具有一致性/连续性（即对于一个特定目标，优秀的检测器应持续检测此目标并且不会将其与其他目标混淆）。ILSVRC2016针对这个问题在VID任务上新增加了一个子任务（详见第四部分——视频目标检测时序一致性介绍）。

在ILSVRC2016上，在不使用外部数据的VID两个子任务上，前三名由国内队伍包揽（见表1、表2）。本文主要结合NUIST，CUVideo，MCG-ICT-CAS以及ITLab-Inha四个队伍公布的相关资料对ILSVRC2016中的视频目标检测方法进行了总结。

图片描述

表1 ILSVRC2016 VID results(无外部数据)

图片描述

表2 ILSVRC2016 VID tracking result(无外部数据)

通过对参赛队伍的相关报告[2-5]进行学习了解，视频目标检测算法目前主要使用了如下的框架:

将视频帧视为独立的图像，利用图像目标检测算法获取检测结果；
利用视频的时序信息和上下文信息对检测结果进行修正；
基于高质量检测窗口的跟踪轨迹对检测结果进一步进行修正。

本文分为四部分，前三个部分介绍如何提升视频目标检测的精度，最后介绍如何保证视频目标检测的一致性。

单帧图像目标检测

此阶段通常将视频拆分成相互独立的视频帧来处理，通过选取优秀的图像目标检测框架以及各种提高图像检测精度的技巧来获取较为鲁棒的单帧检测结果。《ILSVRC2016目标检测任务回顾（上）–图像目标检测》已对此进行详细总结，这里不再重复。

结合自己实验及各参赛队伍的相关文档，我们认为训练数据的选取以及网络结构的选择对提升目标检测性能有至关重要的作用。

训练数据选取

首先对ILSVRC2016 VID训练数据进行分析: VID数据库包含30个类别，训练集共有3862个视频片段，总帧数超过112万。单从数字上看，这么大的数据量训练30个类别的检测器似乎已经足够。然而，同一个视频片段背景单一，相邻多帧的图像差异较小。所以要训练现有目标检测模型，VID训练集存在大量数据冗余，并且数据多样性较差，有必要对其进行扩充。在比赛任务中，可以从ILSVRC DET和ILSVRC LOC数据中抽取包含VID类别的图片进行扩充。CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作为训练集，ITLab-Inha使了ILSVRC VID+DET、COCO DET等作为训练集。需要注意的是在构建新的训练集的时候要注意平衡样本并去除冗余（CUVideo和MCG-ICT-CAS抽取部分VID训练集训练模型，ITLab-Inha在每个类别选择一定数量图像参与训练，NUIST使用在DET上训练的模型对VID数据进行筛选）。对于同样的网络，使用扩充后的数据集可以提高10%左右的检测精度。

网络结构选取

不同的网络结构对于检测性能也有很大影响。我们在VID验证集上进行实验：同样的训练数据，基于ResNet101[6]的Faster R-CNN[7]模型的检测精度比基于VGG16[8]的Faster R-CNN模型的检测精度高12%左右。这也是MSRA在2015年ILSVRC和COCO比赛上的制胜关键。今年比赛前几名的队伍基本上也是使用ResNet/Inception的基础网络，CUVideo使用269层的GBD-Net[9]。

改进分类损失

目标在某些视频帧上会存在运动模糊，分辨率较低，遮挡等问题，即便是目前最好的图像目标检算法也不能很好地检测目标。幸运的是，视频中的时序信息和上下文信息能够帮助我们处理这类问题。比较有代表性的方法有T-CNN[10]中的运动指导传播（Motion-guided Propagation, MGP）和多上下文抑制（Multi-context suppression, MCS）。

单帧检测结果存在很多漏检目标，而相邻帧图像检测结果中可能包含这些漏检目标。所以我们可以借助光流信息将当前帧的检测结果前向后向传播，经过MGP处理可以提高目标的召回率。如图1所示将T时刻的检测窗口分别向前向后传播，可以很好地填补T-1和T+1时刻的漏检目标。

图片描述

图1 MGP示意图[10]

使用图像检测算法将视频帧当做独立的图像来处理并没有充分利用整个视频的上下文信息。虽然说视频中可能出现任意类别的目标，但对于单个视频片段，只会出现比较少的几个类别，而且这几个类别之间有共现关系（出现船只的视频段中可能会有鲸鱼，但基本不可能出现斑马）。所以，可以借助整个视频段上的检测结果进行统计分析：对所有检测窗口按得分排序，选出得分较高的类别，剩余那些得分较低的类别很可能是误检，需对其得分进行压制（如图2）。经过MCS处理后的检测结果中正确的类别靠前，错误的类别靠后，从而提升目标检测的精度。

图片描述

图2 多上下文抑制示意图[10]

利用跟踪信息修正

上文提到的MGP可以填补某些视频帧上漏检的目标，但对于多帧连续漏检的目标不是很有效，而目标跟踪可以很好地解决这个问题。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支参赛队伍都使用了跟踪算法进一步提高视频目标检测的召回率。使用跟踪算法获取目标序列基本流程如下：

使用图像目标检测算法获取较好的检测结果；
从中选取检测得分最高的目标作为跟踪的起始锚点；
基于选取的锚点向前向后在整个视频片段上进行跟踪，生成跟踪轨迹；
从剩余目标中选择得分最高的进行跟踪，需要注意的是如果此窗口在之前的跟踪轨迹中出现过，那么直接跳过，选择下一个目标进行跟踪；
算法迭代执行，可以使用得分阈值作为终止条件。

得到的跟踪轨迹既可以用来提高目标召回率，也可以作为长序列上下文信息对结果进行修正。

网络选择与训练技巧

对于视频目标检测，除了要保证每帧图像的检测精度，还应该保证长时间稳定地跟踪每个目标。为此，ILSVRC2016新增一个VID子任务，此任务计算每个目标跟踪轨迹(tracklet)/管道(tubelet)的mAP来评测检测算法的时序一致性或者说跟踪连续性的性能。

评价指标：图像目标检测mAP评测对象是每个检测窗口是否精准，而视频时序一致性评测对象是目标跟踪轨迹是否精准；图像目标检测中如果检测窗口跟Ground Truth类别相同，窗口IoU大于0.5就认定为正例。而评价时序一致性时，如果检测得到的跟踪轨迹和Ground Truth（目标真实跟踪轨迹）是同一个目标（trackId相同），并且其中检测出的窗口与Ground Truth窗口的IoU大于0.5的数量超过一个比例，那么认为得到的跟踪轨迹是正例；跟踪轨迹的得分是序列上所有窗口得分的平均值。分析可知，如果一个目标的轨迹被分成多段或者一个目标的跟踪轨迹中混入其他的目标都会降低一致性。

那么如何保证视频检测中目标的时序一致性呢？本文认为可以从以下三个方面入手：（1）保证图像检测阶段每帧图像检测的结果尽量精准；（2）对高质量检测窗口进行跟踪并保证跟踪的质量（尽量降低跟踪中出现的漂移现象）；（3）前面两步获取到的跟踪结果会存在重叠或者临接的情况，需针对性地进行后处理。

ITLab-Inha团队提出了基于变换点检测的多目标跟踪算法[11]，该算法首先检测出目标，然后对其进行跟踪，并在跟踪过程中对跟踪轨迹点进行分析处理，可以较好地缓解跟踪时的漂移现象，并能在轨迹异常时及时终止跟踪。

针对视频目标检测的一致性问题，作者所在的MCG-ICT-CAS提出了基于检测和跟踪的目标管道生成方法。

图片描述

图3 基于检测/跟踪/检测+跟踪管道示意图

图3-a表示使用跟踪算法获取到的目标管道（红色包围框），绿色包围框代表目标的Ground Truth。可以看到随着时间推移，跟踪窗口逐渐偏移目标，最后甚至可能丢失目标。MCG-ICT-CAS提出了基于检测的目标管道生成方法，如图3-b所示，基于检测的管道窗口（红色包围框）定位较为准确，但由于目标的运动模糊使检测器出现漏检。从上面分析可知：跟踪算法生成的目标管道召回率较高，但定位不准；而基于检测窗口生成的目标管道目标定位较为精准，但召回率相对前者较低。由于两者存在互补性，所以MCG-ICT-CAS进一步提出了管道融合算法，对检测管道和跟踪管道进行融合，融合重复出现的窗口并且拼接间断的管道。

如图4所示，相对于单独的检测或者跟踪生成的目标管道，融合后目标管道对应的检测窗口的召回率随着IoU阈值的增加一直保持较高的值，说明了融合后的窗口既能保持较高的窗口召回率，也有较为精准的定位。融合后的目标管道mAP在VID测试集上提升了12.1%。

图片描述

图4 不同方法生成目标管道的召回率

总结

本文主要结合ILSVRC2016 VID竞赛任务对视频目标检测算法进行介绍。相对于图像目标检测，当前的视频目标检测算法流程比较繁琐且视频自身包含的信息没有被充分挖掘。如何精简视频目标检测流程使其具有实时性，如何进一步挖掘视频包含的丰富信息使其具有更高的检测精度，以及如何保证视频目标检测的一致性或许是视频目标检测接下来要着重解决的问题。

[1]ILSVRC2016相关报告：
http://image-net.org/challenges/ilsvrc+coco2016
[2]CUVideo slide下载链接：
http://image-net.org/challenges/talks/2016/GBD-Net.pdf
[3]NUIST slide下载链接
http://image-net.org/challenges/talks/2016/Imagenet%202016%20VID.pptx
[4]MCG-ICT-CAS slide下载链接
http://image-net.org/challenges/talks/2016/MCG-ICT-CAS-ILSVRC2016-Talk-final.pdf
[5]ITLab-Inha slide 下载链接
http://image-net.org/challenges/talks/2016/ILSVRC2016_ITLab_for_pdf.pdf
[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv:1512.03385, 2015.
[7]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[9]Zeng X, Ouyang W, Yang B, et al. Gated bi-directional cnn for object detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 354-369.
[10]Kang K, Li H, Yan J, et al. T-cnn: Tubelets with convolutional neural networks for object detection from videos[J]. arXiv preprint arXiv:1604.02532, 2016.
[11]Lee B, Erdenee E, Jin S, et al. Multi-class Multi-object Tracking Using Changing Point Detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 68-83.