T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos翻译

本文提出T-CNN框架，通过融合时间信息和上下文信息改进视频对象检测。T-CNN扩展了静态图像检测器，利用多上下文抑制减少误报，运动引导传播减少漏检，并通过tubelet重新评分实现长期一致性。该方法在ILSVRC2015视频对象检测任务中表现出色，解决了静态图像检测器在视频应用中的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

**得奖：**总体而言，我们的框架在ILSVRC2015中提供的数据轨道中排名第一，在30个和第二个类别中获得28个等级，获得11个等级。表VI中显示了验证集上提交的模型的详细AP列表。我们的团队和其他排名靠前的团队对测试数据的最终结果如表VII所示。

近年来，随着新型深度卷积神经网络（CNN）[1]，[2]，[6]，[7]和物体检测框架[3]，[4]，[5]，[8]的成功，物体检测的性能得到显着提高。R-CNN [3]及其后继者[4]，[5]等最先进的对象检测框架从区域提案中提取深度卷积特征，并将提案分类为不同的类别。DeepID-Net [8]通过引入box pre-training, cascade on region proposals,deformation layers and context representations来改进R-CNN。最近，ImageNet引入了一个新的挑战，视频（VID）中的对象检测，将对象检测带入视频领域。在这个挑战中，需要一个物体检测系统，在视频的每一帧中，使用边界框和类标签，自动注释属于30个类中每个对象，而测试视频没有预分配的额外信息，如用户标签（不懂）。 VID在视频分析方面有广泛的应用。
尽管它们对静态图像具有有效性，但这些静态图像对象检测框架并不是为视频而设计的。视频的一个关键因素是时间信息，因为视频中对象的位置和出现应该在时间上是一致的，即检测结果不应该在边界框位置和检测信息方面随时间发生巨大变化。然而，如果静态图像对象检测框架直接应用于视频，则对象的检测置信度显示出相邻帧之间的显着变化和大的长期时间变化，如图1（a）中的示例所示。

图一、视频上静止图像探测器的局限性。（a）静止图像检测器的检测包含大的时间波动，因为它们不包含时间一致性和约束。（b)静止图像检测器可能会仅基于关于单帧的信息生成误报。而可以考虑整个视频的上下文信息来区分这些误报。

提高时间一致性的一个直觉是将检测结果传播到邻近帧以减少检测结果的突然变化。如果在某个帧存在一个对象，相邻帧可能在相邻位置具有相似置信度的相同的对象。换句话说，检测结果可以根据运动信息传播到相邻帧，以便减少错误的检测。通过非极大值抑制（NMS）可以轻松地删除生成的重复框。
提高时间一致性的另一个直觉是对检测结果施加长期约束。如图 1（a）所示，一个物体的外边框序列的检测分数随着时间的推移有很大的波动。这些外边框序列或tubelets，可以通过跟踪和空间-时间对象提案算法[9]来生成。tubelet可以被视为应用长期约束的一个单元。某些正边界框的低检测置信度可能是由于运动模糊，不良姿势或在特定姿势下缺乏足够的训练样本造成的。因此，如果一个tubelet的大多数外边框具有较高的置信度检测分数，那么应该增加在某些帧中的低置信度得分以实现其长期一致性。
除了时间信息，与静态图像相比，上下文信息也是视频的关键要素。虽然已经研究了图像的上下文信息[8]并且被融入静态图像检测框架中，但是作为数百个图像的集合的视频，具有更丰富的上下文信息。如图1（b）所示，视频中的少量帧可能在一些背景对象上具有高置信度false positive。单帧内的上下文信息有时不足以区分这些false positive。然而，考虑到视频剪辑中的大部分高置信度检测结果，false positive可以被视为离群值，然后可以抑制其检测置信度。
本文的贡献是三重的。 1）我们提出了一个深度学习框架，扩展了流行的静态图像检测框架（R-CNN和Faster R-CNN），通过融合来自tubelet的时间和上下文信息来解决视频中的通用对象检测问题。它被称为T-CNN，即具有卷积神经网络的tubelet。 2）通过在相邻帧之间局部的传播检测结果，以及全面修改检测置信度和从跟踪算法生成的tubelet，时间信息被有效地纳入提出的检测框架。 3）根据视频剪辑中的所有检测结果，利用上下文信息来抑制低置信度类别的检测分数。该框架赢得具有提供的数据的VID任务，并在ILSVRC2015中实现了具有外部数据的第二名。代码在https://github.com/myfavouritekk/T-CNN。
2 RELATED WORK
Object detection from still images.
用于通用对象检测的最先进的方法主要基于深度CNN [1]，[3]，[4]，[5]，[8]，[10]，[11]，[12] ]，[13]，[14]，[15]，[16]，[17]。 Girshick等人[3]提出了一种称为R-CNN的多阶段流水线，用于训练深层CNN，以区分对象检测的区域提案。它将检测问题分解为包括边界框提案，CNN预训练，CNN微调，SVM训练和边界框回归等几个阶段。这种框架表现良好，被广泛应用于其他工作中。 Szegedy等人[1]提出了具有22层结构和“inception”模块的GoogLeNet，以取代R-CNN中的CNN，赢得了ILSVRC 2014对象检测任务。欧阳等[8]提出了a deformation constrained pooling layer and a box pre-training strategy，在ILSVRC 2014测试集上达到了50.3％的准确度。为了加快R-CNN pipeline的训练速度，提出了Fast R-CNN [4]，其中每个图像块在被送入CNN之前不再被warp到固定大小。相反，相应的特征是从最后一个卷积层的输出特征图裁剪出来的。在Faster R-CNN pipeline[5]中，区域提案由RPN网络生成，整体框架可以以端到端的方式进行训练。所有这些方法都是用于从静态图像中检测物体。当他们以逐帧的方式直接应用于视频时，他们可能会漏掉一些正样本，因为对象可能不会在视频的某些帧上呈现最佳姿势。
Object localization in videos：
目前还有关于对象定位和共定位的研究[18]，[19]，[20]，[21]。虽然这个任务似乎是类似的，但我们关注的VID任务实际上更具挑战性。两个问题之间有重大的区别。 1）目标：（co）localization问题假定每个视频包含只有一个已知（弱监督设置）或未知（无监督设置）类别，并且仅需要在每个测试帧中定位其中一个对象。然而，在VID中，每个视频帧包含未知数量的对象实例和类别。 VID任务更接近实际应用。 2）评价指标：loc