摘要
众所周知,对对象之间的关系建模将有助于对象检测。然而,这个问题并非微不足道,特别是在探索物体之间的相互作用以增强视频物体检测器时。困难源于以下方面:视频中可靠的对象关系不仅应取决于当前帧中的对象,而且还取决于视频的长距离跨度中提取的所有支持对象。在本文中,我们引入了一种新的设计来捕获时空上下文中跨对象的交互。具体来说,我们提出了关系蒸馏网络(RDN)-一种新颖的体系结构,该体系结构新颖地聚合并传播对象关系以增强对象特征以进行检测。从技术上讲,对象建议首先通过区域建议网络(RPN)生成。然后,RDN一方面通过多阶段推理对对象关系建模,另一方面,通过以级联方式细化具有高对象分数的支持性对象建议,逐步提取关系。所学习的关系验证了在改善每个帧中的对象检测和跨帧链接的框上的功效。在ImageNet VID数据集上进行了广泛的实验,与最先进的方法进行比较时,报告了优异的结果。更值得注意的是,我们的RDN使用ResNet-101和ResNeXt-101分别达到了81.8%和83.2%的mAP。 当进一步配备链接和评分功能时,我们得出的迄今为止最佳的mAP分别为83.8%和84.7%。
前言
卷积神经网络(CNN)的进步成功地突破了极限,并改善了图像和视频理解的最新技术[16,18,19,22,24,25,35,34,37,42,43 ,44]。作为最基本的任务之一,静止图像中的物体检测已经引起了研究兴趣,并且最近的方法[3、5、10、14、39]大多沿着基于区域的检测范式进行,该范式是从研究中得出的。 RCNN [11]。在进一步定位和识别视频中的对象的步骤中,视频对象检测通常通过盒级关联[8、13、20、21]和特征聚合[46、49、53]的两个方向探索时空相干性,以增强检测器,54]。前者在连续帧的边界框内深入研究关联,以生成块状。后者通过聚集附近的特征来改善每帧特征。不管用于增强视频对象检测的这些不同方法如何,都没有充分研究的一个常见问题是对象关系的利用,这被认为对检测很有帮助。
对象关系描述了对象之间的相互作用或几何位置。在文献中,已经有充分的证据证明使用对象关系来支持各种视觉任务,例如,识别[48],对象检测[17],跨域检测[2]和图像字幕[52]。一种利用对象关系的代表性作品是[17],用于图像中的对象检测。基本思想是测量一个对象的关系特征,作为图像中其他对象的外观特征的加权总和,权重反映外观和几何信息方面的对象依赖性。如图1(a)所示的堆叠关系模块以多步方式聚合关系特征并增强对象特征。该方法验证了建模对象关系的优点,以最终增强图像对象检测。然而,由于复杂的时空上下文,将图像中的挖掘对象关系扩展到视频中是非常具有挑战性的。参考框架中的物体和从附近框架中提取的所有支撑物体都应考虑在内。如果直接利用[17]中对象关系的度量,这种区别会导致计算成本和内存需求的巨大增加,更不用说支持对象建议的增加会导致更多无效建议,这可能会影响对象的整体稳定性。关系学习。为了缓解这些问题,我们提出了一种新的多阶段模块,如图1(b)所示。我们独特的设计是逐步安排关系蒸馏。我们从所有支持框架中选择具有较高客观性得分的目标提议,并且仅通过对象关系来增强这些提议的特征,以进一步提炼相对于参考框架中提议的关系。这种级联的方法一方面可以减少计算量并过滤掉无效的建议,另一方面可以更好地改善对象关系。
通过巩固时空上下文中对象关系建模的思想,我们新颖地提出了用于提高视频对象检测的关系蒸馏网络(RDN)。具体来说,利用区域提案网(RPN)从参考框架和所有支持框架中生成对象提案。从支持框架中提取的目标建议被打包到支持池中。我们的RDN的目标是,通过将每个对象提案的关系特征聚合到支持池中的提案之上,来增强其参考框架中的特征。 RDN采用多阶段推理结构,包括基础阶段和高级阶段。在基础阶段,RDN利用支持池中的所有建议来度量在外观和几何信息上度量的关系特征。无论提案的有效性如何,都将在此阶段对所有支持提案进行整体探讨。相反,处于高级阶段的RDN会很好地选择具有较高客观性得分的支持性建议,并首先赋予这些建议的功能与所有支持性建议的关系。然后,这些汇总特征反过来加强了相对于参考框架中提案的关系蒸馏。每个具有对象关系的投标的升级功能最终都用于投标分类和回归。而且,学习到的关系也有利于盒链接的后处理。请注意,我们的RDN适用于任何基于区域的视觉任务。
Related work
对象检测。
深度卷积神经网络[16、22、43、44]和标注良好的数据集[28、40]的最新进展激发了图像对象检测的显着改进[5、10、11、14、15、23、26 ,27,30,38,39,41]。 通常有两个方向用于物体检测。 一个是基于提议的两阶段检测器(例如,R-CNN [11],Fast R-CNN [10]和Faster RCNN [39]),另一个是没有提议的一级检测器(例如,SSD [30],YOLO [38]和RetinaNet [27])。 最近,受关注模型在NLP领域成功的推动[9,45],[17,47]扩展了关注机制,以通过利用注意力来支持计算机视觉任务。
我们工作中的关系蒸馏网络也是对象之间关系建模的一种。与为图像中的对象检测开发的[17]不同,我们的研究超越了在一幅图像内挖掘对象关系的目的,其目的是在视频对象检测的复杂时空上下文中探索跨多个帧的对象交互。此外,设计了一种渐进式的关系提炼时间表,以精炼对象关系,同时减少了在测量参考框架与所有附近支撑框架之间的对象关系时的计算成本。
视频对象检测。
由于视频中存在时空复杂变化,将静止图像检测器推广到视频领域并非易事,更不用说运动模糊或遮挡可能会使某些帧中的对象出现恶化。修正此问题的一种常见解决方案是特征聚合[1、29、49、53、54、55],它通过聚合附近帧的特征来增强每帧特征。具体而言,FGFA [54]利用来自FlowNet [7]的光流来指导相邻帧的特征图上的像素级运动补偿,以进行特征聚合。 [49]设计了一种时空存储模块来执行逐帧的空间对齐以进行聚合。视频对象检测的另一个方向是框级关联[8、13、20、21、46],它通过独立的链接过程将连续帧中的边界框关联起来以生成 linking/tracking。Seq-NMS [13]根据连续帧的边界框之间的jaccard重叠建立时间图,并以高可靠性搜索最佳路径作为小管。 D&T [8]将跟踪公式集成到R-FCN [5]中,以同时执行对象检测和跨帧跟踪回归。 [46]通过在盒级校准目标特征进一步扩展了FGFA [54],以增强视频目标的检测能力。
尽管特征级方法和框级方法通常都以更高的定量分数增强了视频对象检测,但是对象之间的关系并没有完全跨帧用于视频中的对象检测。 相反,我们利用时空上下文中的对象关系建模来促进视频对象检测。 为此,我们设计了一种新颖的关系蒸馏网络,以跨帧聚合和传播对象关系,以级联的方式增强对象特征以进行检测。
3. RDN for Video Object Detection
在本文中,我们设计了关系蒸馏网络(RDN),通过捕获时空上下文中跨对象的交互来促进视频中的对象检测。 具体而言,首先利用区域提议网络(RPN)从参考框架和所有支持框架中获取目标提议。 然后,RDN会在支持提议上聚合并传播对象关系,以增强每个参考对象提议的特征以进行检测。 RDN中使用了一个多阶段模块,以通过多阶段推理同时建模对象关系,并通过以级联方式细化具有高对象得分的支持对象建议来逐步提炼关系。 可以在分类和回归检测中以及后处理中的检测框链接中进一步利用学习的关系。 我们的RDN架构概述如图2所示。
3.1. Overview
Notation.在视频对象检测的标准任务中,我们给出了一系列相邻帧{Iτ} t Tτ= t-T,其中将中心帧It设置为参考帧。 相邻帧的整个序列{Iτ} t Tτ= t-T被视为支持帧,并且T表示支持帧的时间跨度范围。 这样,视频对象检测的目标是通过另外利用支持帧中的时空相关性来检测参考帧It中的对象。 由于最终目标是在时空上下文中建模对象关系以增强视频对象检测,因此首先利用RPN生成参考框架和所有支持框架的对象建议。 从参考帧中选择的前K个对象建议的集合表示为Rr = {Rr i}。来自支持框架的所有前K个对象建议都被分组为支持池,表示为Rs = {Rs i}。此外,我们通过采样具有较高客观性得分的r%支持对象建议来进一步完善支持池Rs,从而得出高级支持池Rsa = {Rsa i}。 支持池Rs和高级支持池Rsa都将在我们设计的关系蒸馏网络中使用,以实现渐进式
关系蒸馏的调度。
Problem Formulation.受最近在各种视觉任务(例如,识别[48]和对象检测[17])中探索对象关系的成功的启发,我们通过在时空上下文中对对象之间的交互进行建模来制定视频对象检测方法,以增强视频对象检测器。给定参考建议Rr,支持池Rs和高级支持池Rsa的集合,我们希望通过与Rs和Rsa中的支持建议形成提炼关系,逐步增强Rr中每个参考建议的功能。为此,基于精子检测器Faster R-CNN构建了一种新颖的关系蒸馏网络[39]。 RDN中采用了由基础阶段和高级阶段组成的多阶段推理结构,以级联方式逐步安排关系蒸馏。这种级联方式的设计,不仅减少了计算量,过滤掉了无效的建议书,而且还逐步完善了参考建议书与支持建议书之间的对象关系,以提高检测效率。最具体地说,在基础阶段,Rs中的所有支持建议都用于在外观和几何信息上测量Rr中参考建议的关系特征。这样,通过堆叠关系模块获得了基本阶段的改进参考建议Rr1 = {Rr1 i}的输出集,该模块探索参考建议与所有支持建议之间的相互作用,而与建议的有效性无关。在高级阶段,我们首先将高级支持库Rsa中每个选定支持建议的功能与Rs中的所有支持建议进行关联。然后,蒸馏后的支持提议的这种综合特征反过来加强了基础阶段Rr1输出中相对于参考提议的关系蒸馏。一旦获得了升级的参考建议书Rr2 = {Rr2 i},我们将直接利用它们来改进参考框架中的物体检测。关于我们的RDN的多阶段推理结构的更多详细信息将在第3.3节中详细说明。此外,通过表征跨帧的对象之间的自然交互,可以进一步利用学习的关系来指导后处理中的检测框链接,这将在第3.4节中介绍。
3.2. Object Relation Module
我们首先简要回顾一下用于图像中对象检测的对象关系模块[17]。 基于[45]中的多头注意,根据提议R = {Ri}的输入,设计了对象关系模块,通过测量M个相关特征作为其他提议的外观特征的加权总和来增强每个提议Ri。 请注意,我们用其几何特征gi(即目标提案的4维坐标)和外观特征fi(即目标提案的RoI合并特征)来表示每个目标提案。 形式上,提案Ri的第m个关系特征是根据R来计算的:
其中,W m L表示变换矩阵。 ωij是关联权重矩阵ω中的一个元素,代表提案Ri和Rj之间的成对关系,该提案基于其外观和几何特征进行测量。 通过将每个提案Ri的所有M个关联特征及其外观特征进行串联,我们最终获得了对象关联模块的关联特征输出:
3.3. Relation Distillation Networks
与[17]探讨用于检测对象的图像中的对象关系不同,我们通过在复杂的时空环境下利用多个帧之间的对象交互来促进视频对象检测中对象关系的建模。将图像中的关系增强检测器扩展为视频的一种自然方法是利用[17]中的对象关系模块来测量参考帧中的对象与附近帧中所有支持对象之间的交互。然而,这种方式将导致计算成本的巨大增加,更不用说支持性建议的增加会导致更多无效的建议,并且关系学习的整体稳定性将不可避免地受到影响。为了缓解这个问题,我们设计了关系蒸馏网络,通过多阶段推理结构逐步安排关系蒸馏以增强检测能力,该结构包含基础阶段和高级阶段。背后的精神遵循这样的理念:基本阶段在所有支持性建议中相对于参考性建议全面地探索关系,而高级阶段则通过细化支持性建议逐步提炼关系,并通过增加关系来进一步增强参考性建议。
基本阶段。
正式地,给定一组参考建议Rr和支持池Rs,基本阶段通过堆叠关系模块将所有参考建议的关系特征作为所有支持提议的特征加权总和进行预测:
其中,Nbasic(·)表示基础阶段的堆叠关系模块的功能,Rr1表示基础阶段的输出增强参考建议。 请注意,在视频对象检测的复杂时空环境中,单个关系模块不足以对多个帧之间的对象之间的交互进行建模。 因此,我们以配备Nb对象关系模块的堆叠方式迭代关系推理,以更好地刻画所有有关参考建议的支持性建议的关系。 具体来说,对于处于基础阶段的第k个对象关联模块,第i个参考提议在支持池Rs中的所有提议上都增加了关联特征:
其中,h(·)表示使用全连接层加上ReLU实现的特征转换函数。每个关系模块都将来自先前关系模块的参考建议的转换特征作为参考输入。我们在基础阶段堆叠Nb关系模块,并将来自第Nb关系模块的所有增强参考建议作为基础阶段的输出Rr1。
高级阶段。
在基础阶段的关系推理仅探索参考提议与所有支持提议之间的交互建模,而未利用Rs中的支持提议之间的关系。此外,我们提出了一个新的高级阶段,通过增强提炼的支持性建议与所有支持性建议的关系来探索支持性建议之间的相互作用。接下来,利用增强的提炼支持提案从基础阶段通过它们之间的关系推理进一步增强参考提案。这种逐步提取支持方案的设计,不仅降低了测量支持方案之间的关系的计算成本,而且滤除了无效的支持方案以进行关系推理,最终提高了检测效率。
从技术上讲,给定基本阶段的输出参考建议Rr1,支持池Rs和高级支持池Rsa,高级阶段通过逐步安排关系蒸馏来进一步增强所有参考建议Rr1:
其中Nadv(·)表示高级操作,Rr2表示高级的输出关系增强参考建议。 最具体地说,我们首先将Rsa中提炼的支持建议与针对Rs中所有支持建议的关系推理进行细化:
其中,Ra i表示第i个经过改进的支持提案。 此后,经过细化的支持建议Ra = {Ra i}被用于从基础阶段进一步提炼与参考建议Rr1的关系:
其中Rr2 i代表第i个升级参考方案。最后,所有升级的参考建议书Rr2 = {Rr2 i}用于建议书分类和回归。
培训和推理。在训练阶段,我们使用时间丢失策略[54]从相邻帧{Iτ} tTτ= t−中随机选择两个支持帧Itτ1和Itτ2(τ1,τ2∈[-T,T])。因此,对整个RDN进行了优化,并采用了端到端方法对参考增强Rr2进行分类和回归损失。在推论过程中,我们遵循[54],并用相邻帧{Iτ} tTτ= t-T的滑动建议特征缓冲区顺序处理每个帧。提议的特征缓冲器的容量被设置为除了开始和结束T帧(即2T 1)以外的相邻帧的长度。 RDN的详细推理过程在算法1中给出。
3.4. Box Linking with Relations
为了通过在连续帧中重新评估单个检测帧来进一步改善视频对象检测结果,我们采用了跨帧链接检测帧的后处理方法,例如[12、13、21]。尽管盒级后处理方法通常以更高的量化分数来增强视频对象检测,但是还没有针对盒链接对测试盒之间的对象关系进行充分研究。相比之下,我们将学习到的对象间关系集成到盒链接的后处理中,以进一步传播高相关检测帧之间的置信度得分,从而提高检测效率。
具体来说,我们将盒装链接的后处理公式化为最佳路径查找问题。请注意,由于框链接是独立应用于每个类的,因此为简单起见,此处省略了类符号。给定两个连续帧It和It 1中的两个检测帧d t i和d t 1 j,它们之间的链接得分计算为:
待续。。。