G-TAD Sub-Graph Localization翻译

摘要

时间动作检测是视频理解中一个基本而又具有挑战性的任务。视频上下文是有效检测动作的重要线索,但目前的研究主要集中在时间上下文上,而忽略了语义上下文等重要上下文属性。在这项工作中,我们提出了一个图卷积网络(GCN)模型,自适应地将多层次语义上下文纳入到视频特征中,并将时间动作检测作为子图定位问题。具体来说,我们将视频片段表示为图节点,将片段-片段相关性表示为边,以图的卷积为基本运算,设计了一个名为GCNeXt的GCN块,通过聚合节点的上下文来学习每个节点的特征,并动态更新图中的边。为了定位每个子图,我们还设计了一个SGAlign层来嵌入每个子图到欧几里得空间Euclidean space。大量的实验表明,G-TAD能够在不需要额外监督的情况下找到有效的视频上下文,并且在两个检测基准上都达到了最新的性能。在ActivityNet-1.3得到的平均地图为34.09%;在THUMOS14,在IoU@0.5的时候,它达到了51.6%当和提议处理方法结合在一起的时候。G-TAD代码可以通过https://github.com/frostinassiky/gtad.公开获得。

1. Introduction

近年来,由于在线平台上发布的视频数量快速增长,对视频的理解受到了学术界和业界的广泛关注。时间动作检测是这一领域中有趣而又富有挑战性的课题之一。它包括检测动作实例的开始和结束框架,以及预测它们的类标签。这是繁重的,特别是在长视频未经修剪。
视频上下文是有效检测动作的重要线索。在这里,我们将上下文称为不属于目标动作但携带有价值指示性信息的帧。使用视频上下文来推断潜在的行为对人类来说是很自然的。事实上,经验证据表明,人类可以可靠地猜测或预测某一特定类型的动作的发生,只需要看那些动作没有发生的短视频片段[1,2]。因此,在近期的文献[11,15,9,33,44,56,30]中,将上下文纳入时态动作检测已经成为提高检测准确率的重要策略。研究人员提出了多种利用视频上下文的方法,如按预定义的比例扩展时间动作边界[11,15,44,56,30],使用扩大化卷积将上下文编码为特征[9],通过高斯曲线[33]隐式聚合上下文特征。所有这些方法都只使用时间上下文,它在动作实例的直接时间邻域之前或之后。然而,真实世界的视频在时间范围、动作内容甚至编辑偏好上都有很大差异。时间上下文没有充分发挥视频上下文的丰富优点,如果没有对底层视频进行适当的设计,甚至会影响检测的准确性。
那么,为了精确的动作检测,需要什么样的视频内容呢?首先,上下文应该在语义上与目标动作相关联,而不仅仅是在时间上位于其附近。想象一下,如果我们手动地将一个动作剪辑嵌入到一些不相关的帧中,围绕着动作的突然场景变化肯定不会对动作检测有好处。另一方面,与动作距离较远但包含相似语义内容的片段可能为检测动作提供指示性提示。第二,上下文应该是内容自适应的,而不是手动预定义的。考虑到视频的巨大差异,帮助检测不同动作实例的上下文可以根据视频内容在长度和位置上有所不同。第三,上下文应该基于多个语义层次,因为只使用一种形式/层次的上下文不可能很好地概括。
[24] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016
通过将动作检测转换为基于图卷积网络[24]的子图定位问题,我们赋予了视频上下文上述所有特性。我们将每个视频序列表示为一个图,每个片段表示为一个节点,每个片段之间的相关性表示为一条边,与上下文相关的目标动作表示为子图,如图1所示。片段的上下文被认为是视频图中通过边连接到它的所有片段。我们定义了两类边缘——时间边缘和语义边缘,分别对应于时间上下文和语义上下文。每对相邻片段之间都存在时间边,而语义边则从每一层的视频特征中动态学习。因此,在整个GCN中,每个片段的多层次上下文逐渐聚合为片段的特征。

图1
图1所示。视频的Graph formulation。节点:视频片段(视频片段定义为短时间内的连续帧)。边缘:snippet-snippet相关性。子图:与上下文相关的动作。有4种类型的节点:动作、开始、结束和背景,以彩色点的形式显示。边有两种:(1)时间边缘,根据片段的时间顺序预先定义;(2)语义边缘,从节点特征中学习。
我们提议的图形时间动作的管道检测方法,称为G-TAD,类似于faster R-CNN[17,35]在目标检测。在G-TAD中有两种关键的设计。首先,基于GCN的特征提取块GCNext受到ResNeXt[49]的启发,生成上下文丰富的特征。它对应于更快的R-CNN中骨干网的CNN块。其次,为了模拟region of interest (RoI)对齐[19],我们设计了一个兴趣对齐层SGAlign的子图,为每个子图生成一个固定大小的表示,并将所有子图嵌入到同一个欧氏空间中。最后,利用分类器对每个子图的特征进行检测。我们将我们的贡献总结如下。
(1)提出了一种新的基于GCN的视频模型,充分利用视频上下文进行有效的时间动作检测。通过使用这个视频GCN表示,我们能够自适应地将多层语义上下文合并到每个片段的特征中。
(2)提出了一种新的子图检测框架G-TAD,用于定位视频图中的动作。G-TAD包括两个主要模::GCNeXt和SGAlign。GCNeXt利用时间和语义上下文在视频图上执行图形卷积。SGAlign在适合检测的嵌入空间中重新排列子图特征。
(3) 在两个流行的动作检测基准上,G-TAD实现了最先进的性能。在ActivityNet-1.3上,平均得到34.09%的地图。在THUMOS14上,在IoU@0.5与提议处理方法结合时,它达到51.6%。

2. Related Work

2.1. Video Representation

Action Recognition. 许多基于CNN的方法已经被提出来解决动作识别任务。双流网络[14,38,43]使用2D CNNs从RGB和光流序列中提取帧特征。这些二维CNN可以从零开始设计[20,39],也可以对图像识别任务[12]进行预先训练。其他方法[41,8,34,52]使用3D-CNN对原始视频的时空信息进行编码。在我们的工作中,我们使用预先训练好的动作识别模型[51,45]提取视频片段特征作为G-TAD输入。
Action Detection. 时间动作检测是预测未裁剪视频中动作实例的边界和类别。一个常见的做法是首先生成时间建议,然后将每个建议分类到一个行动类别[37,40,56,55,9,30]。对于提案的生成,他们要么使用固定的手工锚[5, 6, 13, 15, 37],或者通过连接潜在的开始帧和结束帧自适应地形成候选提案[56,30]。GTAD使用锚来定义子图,但也包含了开始/结束预测来规范训练过程。

2.2. GCN in Videos

Graphs in Video Understanding. 图被广泛用于各种视频理解任务中的数据/特征表示,如动作识别[31,47,10]和动作定位[55]。在动作识别中,Liu等[31]视视频为时空空间中的三维点云。Wang等人[47]将视频表示为一个时空区域图,其中图节点根据目标区域建议进行去细化。在动作检测中,Zeng等人[55]将时间动作建议视为图中的节点,并根据已建立的提案-提案依赖关系来细化其边界和分类分数。与之前的作品不同的是,G-TAD将视频片段作为图中的节点,根据时间顺序和语义相似性在它们之间形成边。
[24] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016.
Graph Convolutions Networks. 图卷积[24]网络广泛应用于非欧几里得结构。近年来,由于其通用性和有效性,在计算机视觉任务中得到了成功的应用,如三维物体检测[18]和点云分割[48,50]。与此同时,各种为了更有效和灵活的建模,提出了GCN架构。Wang等人[48]对点云的边缘卷积方法是一个代表性的工作。它根据节点之间的特征距离计算每个图层上的图边(表示为节点邻接),并通过将邻域上的特征聚合作为节点输出来丰富节点特征。
[48] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay Sarma, Michael Bronstein, and Justin Solomon. Dynamic graph cnn for learning on point clouds. ACM Transactions on Graphics, 2018.
最近,Li等人[25,26]提出了DeepGCNs,利用残差/稠密图连接和扩张的图卷积,使GCNs可深入100层,并探索了自动设计GCNs[27]的方法。G-TAD使用类似于DeepGCN的结构在动态语义图和固定时间图上应用图形卷积。
[25] Guohao Li, Matthias Muller, Ali Thabet, and Bernard Ghanem. Deepgcns: Can gcns go as deep as cnns? (ICCV), 2019.
[26] Guohao Li, Matthias Muller, Guocheng Qian, Itzel C. Delgadillo, Abdulellah Abualshour, Ali Thabet, and Bernard Ghanem. Deepgcns: Making gcns go as deep as cnns, 2019.
[27] Guohao Li, Guocheng Qian, Itzel C. Delgadillo, Matthias Muller, Ali Thabet, and Bernard Ghanem. Sgas: Sequential greedy architecture search, 2019.

3. Proposed Method

3.1. Problem Formulation

我们的管道的输入是一个lv帧的视频序列。根据最近的视频动作建议生成方法[5,13,15,30],我们使用从原始视频帧中提取的特征序列来构建G-TAD模型。我们对每个连续的σ帧的特征进行平均,并将每组的σ帧作为一个片段。这样,我们输入的视觉特征序列用 在这里插入图片描述在这里插入图片描述

表示,其中C为每个片段的特征维数,L为片段的数量。每个视频序列有一组N注释在这里插入图片描述其中ψN表示一个动作,和ts, N, te, N, cn是它的开始时间,结束时间,和操作类,分别。
时间动作检测任务是从V中预测M种可能的动作在这里插入图片描述
这里,表示第m个预测的预测时间边界行动 是其预测动作类和信心得分,分别。

3.2. G-TAD Architecture

在这里插入图片描述
图2。G-TAD架构概述。输入是一系列snippet特征。首先使用b个GCNeXt块提取特征,并逐步聚合时间和多层次语义上下文。语义上下文编码在语义边中,动态地从每个GCNeXt层的特征中学习。然后,我们将提取的特征输入到SGAlign层中,在SGAlign层中,由一组锚定义的由固定大小的特征表示的子图。最后,定位模块对检测的子图进行评分和排序。
我们的动作检测框架如图2所示。我们将片段特性X(0)输入到一个由b个GCNeXt块组成的堆栈中,该堆栈的设计灵感来自于ResNeXt[49],以获取上下文感知的特征。每个GCNeXt包含两个图卷积流:一个流在固定的时间邻域上操作,另一个流自适应地将语义上下文聚合到片段特征中。这两个流都遵循分裂-转换-合并split-transform-merge策略,具有多个卷积路径49来生成更新的图,这些图被聚合到一个图中作为块输出。在所有b个GCNeXt块的末尾,我们根据预定义的时间锚点提取一组子图(见4.2节)。然后对兴趣对齐层的子图进行设计,用特征向量表示每个子图。最后,我们利用多个全连通层来预测表示每一子图的特征向量与ground truth动作实例的IOU。我们分别在3.3节和3.4节中对GCNeXt和SGAlign进行了详细的描述。

3.3. GCNeXt for Context Feature Encoding

我们的基本图形卷积块GCNeXt对视频序列的图形表示进行操作。它使用它们的时间和语义邻域来编码片段。Fig3阐述了GCNeXt的架构。
在这里插入图片描述
图3。GCNeXt块。输入特征由具有相同基数的时间流和语义流处理。黑色和紫色的框分别表示时间流和语义流中的操作,深颜色表示图形卷积,浅颜色表示1×1卷积。每个框中的数字代表输入和输出通道。两个流都遵循split-transform-merge策略,每个都有32条路径,以增加转换的多样性。模块输出是流和输入的总和
我们建立一个视频图G = {V, E},其中在这里插入图片描述在这里插入图片描述分别表示节点集和边集。在本例中,每个节点表示一个片段,每条边显示一对片段之间的依赖关系。我们定义了两类边缘:时间边缘Et和语义边缘Es。相应地,我们有时间流和语义流。下面我们将描述每种类型的边以及图的卷积过程。
Temporal Edges (在这里插入图片描述) 编码视频片段的时间顺序。每个节点vi∈V对节点vi+1都有一条唯一的前边,对节点vi-1也有一条后边。在这里,我们有在这里插入图片描述,其中在这里插入图片描述分别为前向和后向时间边集,定义如下:
在这里插入图片描述
其中L是视频中的片段数。
Semantic Edges(在这里插入图片描述)由动态边卷积[48]的概念定义,该概念根据图节点之间的特征距离动态构造边缘。语义边的目标是从语义相关的片段中收集信息。我们对在这里插入图片描述中每个节点vi的语义边缘集在这里插入图片描述定义如下:
在这里插入图片描述
其中在这里插入图片描述为节点vi第k个最近邻的节点索引。它是在节点特征空间的每个GCNeXt块上动态确定的,使我们能够在整个网络中更新内在携带语义上下文信息的节点。因此,在这里插入图片描述自适应地变化以表示新的语义层次。
Graph Convolution我们用在这里插入图片描述在这里插入图片描述表示图中所有节点的特征,并用图的卷积运算F变换它。在文献中,F有几个选项。为简单起见,我们使用单层边卷积single-layer edge convolution [48]作为图的卷积运算:
在这里插入图片描述
其中在这里插入图片描述为可训练权值;在这里插入图片描述为无自环(即节点与自身之间的边)的邻接矩阵在这里插入图片描述表示列的矩阵连接。我们将A中的第(i,j)个元素表示为A(i,j) =在这里插入图片描述,其中1{·}为指标函数indicator function。
[48] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay Sarma, Michael Bronstein, and Justin Solomon. Dynamic graph cnn for learning on point clouds. ACM Transactions on Graphics, 2018
GCNeXt中的任何一个流都利用了具有32条路径的拆分-转换合并策略[49]来增加转换的多样性。每条路径包含一个如Eq. 3所示的图卷积和两个1×1的卷积,其组成为在这里插入图片描述
Stream Aggregation.GCNeXt的输出是语义流和时间流的集合,也是输入,可以表示为:
在这里插入图片描述
其中在这里插入图片描述在这里插入图片描述是邻接矩阵,W=在这里插入图片描述为可训练权值,对应在这里插入图片描述在这里插入图片描述分别。ReLU是作为激活函数的整直线单元。在补充材料中,我们简化了公式4,证明了零填充一维卷积可以有效地计算它。

3.4 Sub-Graph Alignment and Localization

Sub-Graph of Interest Alignment (SGAlign). GCNeXt块生成所有片段在这里插入图片描述的特征(称为GCNeXt特征),它包含来自它们的时间和语义上下文的聚合信息。使用在这里插入图片描述我们得到一个更新后的图{V, E}。在SGAlign中,我们进一步利用语义上下文,平均每个节点的邻居特征,表示为yl =在这里插入图片描述并称yl为语义特征。
SGAlign使用预定义的锚从{V, E}中提取子图。给定每个动作锚点在这里插入图片描述,则子图Ga被定义为G的子集,使得Ga =在这里插入图片描述其中在这里插入图片描述在这里插入图片描述。对于子图Ga,我们按照Alg. 1中所述,通过插值interpolation和尺度改变rescaling进行采样在这里插入图片描述个点(在这里插入图片描述:alignment quantity调整数量),生成子图特征在这里插入图片描述其中C为特征维数。
在这里插入图片描述
我们独立运行Alg. 1,使用GCNeXt特征在这里插入图片描述和语义特征在这里插入图片描述作为输入。对于前者,我们采样了在这里插入图片描述个点,得到子图特征在这里插入图片描述对于后者,我们采样了在这里插入图片描述个点,分别得到在这里插入图片描述我们将在这里插入图片描述在这里插入图片描述串联起来作为SGAlign层的输出。图4说明了利用这两种特性进行SGAlign的思想。
在这里插入图片描述
图4。SGAlign层。SGAlign基于GCNeXt特征(左)和语义特征(右)提取子图特征,并将这两个子图特征作为输出连接起来。上面的点代表子图特征。在底部,点代表图节点,灰色线代表语义边,橙色高亮的区域代表子图。注意,由于每个节点的语义特征都是使用其邻居计算的,因此子图特征中的每个条目本质上都对应于图中多个语义相关的节点。
通过明确地使用语义特征yl,SGAlign在计算各子图特征时自适应地聚合语义上下文信息。这与为合并时间上下文而手动扩展锚点边界的方法有本质上的不同[30,56],并导致优越的性能。
值得注意的是,采样间隔s是基于子图大小d和alignment quantity在这里插入图片描述的,以确保输出的在这里插入图片描述是子图中所有节点的加权和。在第4.4节中,我们说明了这个抽样策略给了我们实验上的改进。
Sub-Graph Localization. 对于每个子图Ga指出,我们计算它的Intersection-over-Union对在在这里插入图片描述中的所有gt动作在这里插入图片描述,并表示最大IoU 作为训练目标。在SGAlign层之上,我们为每个子图特征应用三个完全连接(FC)层。最后FC层有两个输出分数在这里插入图片描述,他们是被训练用来匹配在这里插入图片描述使用分类和回归损失,分别。

3.5. G-TAD Training

我们训练G-TAD使用子图定位损失Lg和节点分类损失Ln,以及一个L2-norm正则化损失Lr对所有可训练的参数Θ:
在这里插入图片描述
损失Lg用于确定子图的置信分数,而损失Ln则根据节点相对于动作的位置对每个节点进行分类,可以显著提高网络的收敛性。
Sub-Graph Localization Loss. 子图损失Lg定义如下:在这里插入图片描述
其中Lmse为均方误差损失mean square error loss,Lwce为加权交叉熵损失。权值被计算来平衡正训练样本和负训练样本。
Node Classification Loss随着子图的定位损失Lg,我们使用损失Ln对整个图中的每个节点进行分类,根据它们是一个动作的开始点还是结束点。我们在第一个GCNeXt块之后添加FC层,以生成开始/结束概率( 在这里插入图片描述)(这些层在测试时被忽略)。我们使用(在这里插入图片描述)来表示每个节点对应的训练目标。利用加权交叉熵损失计算预测值与目标值之间的误差,Ln公式为在这里插入图片描述

3.6. G-TAD Inference

在推理时,G-TAD预测每个子图Ga的分类和回归得分。从J个子图,我们构造预测动作在这里插入图片描述在这里插入图片描述是指预测行为边界,cˆj预测操作类,pj的融合信心得分是预测,计算为在这里插入图片描述在我们的实验中,我们在每个设置中搜索最优的起始点。

4. Experiment

4.1. Datasets and Metrics

ActivityNet-1.3 [7] 是一个大规模的动作理解数据集,用于动作识别、时间检测、提议生成和密集的字幕任务。它包含19,994个带有时间注释的未修剪视频,200个动作类别,按2:1:1的比例分为训练集、验证集和测试集。
THUMOS-14[23]数据集包含413个带有20个动作类别的临时注释的未修剪视频。我们使用验证集中的200个视频进行训练,并对测试集中的213个视频进行评估。
Detection Metric. 我们以一定IoU阈值下的平均精度(mAP)作为主要评价指标。根据官方评估API, IoU阈值{0.5,0.75,0.95}和{0.3,0.4,0.5,0.6,0.7}分别用于ActivityNet-1.3和THUMOS-14。在ActivityNet-1.3,我们也报告了10个不同IoU阈值的平均mAP[0.5: 0.05: 0.95]。

4.2. Implementation Details

Features and Anchors. 我们为两个数据集使用预先提取的特征。对于ActivityNet-1.3,我们采用Xiong等人[51]预训练的两流网络。利用线性插值将每个视频特征序列调整为L = 100个片段。对于THUMOS-14,使用经过Kinetics [57]预训练的TSN模型[44]提取视频特征。我们用大小为L = 256和stride 128的重叠窗口来裁剪每个视频特征序列。在训练中,我们不使用任何无效的动作。
对于ActivityNet-1.3和THUMOS-14,我们列举了所有可能的起始和结束锚点组合,例如在这里插入图片描述其中D对于ActivityNet-1.3是100,对于THUMOS-14是64.
Training and Inference. 我们使用PyTorch 1.1、Python 3.7和CUDA 10.0实现和编译我们的框架。我们使用b = 3个GCNeXt块对我们的模型进行端到端训练,批大小为16。在推理中,在[30]之后利用全局视频上下文,我们从[42]和[51],乘以融合的置信分数pj进行评估。对于后处理,我们使用软- nms[3],其中阈值为0.84,选择top-M预测进行最终评价,其中M为100,用于ActivityNet-1.3和200的THUMOS-14。更多的细节可以在补充材料中找到。

4.3. Comparison with State-of-the-Art

ActivityNet-1.3: 表1比较了G-TAD和最先进的检测器。我们报告了不同tIoU阈值的mAP,以及平均mAP。我们报告了这个大规模和多样化数据集上最高的平均地图结果。值得注意的是,在IoU 0.95时,G-TAD的mAP值为9.02%,说明该定位方法比其他定位方法更准确。
在这里插入图片描述
表1。ActivityNet-1.3的验证集上的动作检测结果,通过不同tIoU阈值的mAP(%)和平均mAP测量。G-TAD在平均mAP上的性能优于其他方法,甚至在倒数第二块中显示的BMN和P-GCN的最新工作
THUMOS-14:在THUMOS14数据集上,表2比较了G-TAD和各种最新方法的动作定位结果。IoU 0.7时,G-TAD达到了23.4%的mAP,明显高于目前TALNet最好的20.8%。在IoU 0.5, G-TAD超过所有方法除TALNet。此外,结合所提出的后处理方法P-GCN [55], G-TAD性能更好,特别是在IoUs≤0.5时。现在G-TAD达到51.6%,IoU 0.5,优于所有其他方法。另外,我们也用PGCN(直接取自[55])报告了BSN的结果,结果不如G-TAD + P-GCN,虽然表现优于BSN。这意味着无论后期处理如何,G-TAD建议都具有优势。
在这里插入图片描述
表2。对THUMOS14测试集的动作检测结果、不同tIoU阈值下mAP(%)测量。G-TAD实现了IoU@0.7的最佳性能,并与P-GCN, G-TAD显著优于其他所有方法。

4.4. Ablation Study

GCNeXt Module:我们抛弃了GCNeXt的三个主要组件,主要是时间边上的GCN、语义边缘上的GCN和基数增加。表3报告了ActivityNet-1.3上的性能,其中每个组件都是单独启用和禁用的。我们可以看到这些组件如何对最终的G-TAD模型的性能做出贡献。我们强调了从语义图中获得的好处,显示了从语义邻居中集成自适应上下文的好处。它还显示基数32在很大程度上优于基数1
在这里插入图片描述
表3。去除GCNeXt组件。在ActivityNet-1.3上,我们禁用了时态/语义图的卷积,并设置了不同的基数来进行检测
SGAlign Module:在SGAlign中合并语义特征会将更多的语义上下文聚集到每个子图中,与仅仅使用GCNeXt特征相比,这有利于后续的定位。对于每个子图,Alg. 1中的采样间隔s是自适应计算的,其性能优于固定值(例如固定值)。表4显示了语义特征以及时序图和语义图的采样策略对ActivityNet-1.3的影响。虽然密集的抽样给我们带来了微小的改进,但通过包含语义图中的上下文信息,我们获得了更大的收益。
在这里插入图片描述
表4。去除SGAlign组件。禁用样品重新调节过程和检测的功能从语义图连接activitynet - 1.3。重新调整的策略带来了轻微的改进,而主要的收获来自上下文信息(语义图)的使用。
Sensitivity to Video Length: 我们报告了G-TAD对不同窗口大小的敏感性结果。表5中的THUMOS-14。G-TAD从更大的窗口大小(L = 256 vs. 128)中获益更多。更大的窗口意味着G-TAD可以从语义图中聚合更多的上下文信息。当L = 512时,GPU内存限制批处理大小,影响网络训练,性能下降。
在这里插入图片描述
表5所示。视频大小的影响。我们不同输入视频大小(窗口长度L)和看到G-TAD性能改善与大尺寸(L = 256)。退化Degradation发生在L = 512,因为GPU内存限制批处理的大小,以显著减少,导致明显的性能下降。

4.5. Discussion of Action Context

在消融研究中,语义图上的图形卷积提高了GCNeXt块和SGAlign层的G-TAD性能。连接背景和动作片段的语义边可以自适应地将动作上下文信息传递给每个可能的动作。在本节中,我们定义了两个额外的实验来展示语义边如何编码有意义的上下文信息。
Zero-Context Video通过比较自然视频和合成视频生成的语义图,可以直观地展示动作和背景之间的零上下文如何生成没有动作背景边的语义图。在图5(左、右)中,我们展示了两个包含动作“摔跤”和“玩飞镖”的自然视频。结果图中的语义边确实存在,将动作与背景片段连接起来,从而举例说明了上下文在检测过程中的使用。然后,我们编译一个合成视频,它将摔跤视频中的动作帧和飞镖视频中的背景帧叠加在一起,将其提供给G-TAD,并再次可视化语义图(中间部分)。正如预期的那样,语义图不包括任何动作背景语义边。
在这里插入图片描述
图5。语义图和上下文。给定两个视频(左边和右边),我们将一个视频的动作帧与另一个视频的背景帧结合起来,创建一个没有动作上下文的合成视频(中间)。正如预期的那样,合成视频的语义图不包含动作和背景片段之间的边。
Correlation to Context Amount. 我们展示了上下文边和人类注释者定义的上下文之间的相关性。我们将视频上下文数量context amount定义为用于预测前景类的背景片段的平均数量。跟随[1]DETAD,我们从Amazon Mechanical Turk收集ActivityNet验证集中所有视频的上下文数量。图7的散射给出了上下文数量context amount与动作-背景语义边占所有语义边的比例的关系。从图中我们观察到,如果一个视频有更多的上下文,那么它的语义图中更有可能有更多的动作背景语义边。
在这里插入图片描述
图7。Action-Background Semantic Edge Ratio vs. Context Amount。在散点图中,每个紫色点对应一个不同的视频图。上下文数量与动作-背景语义边缘比率之间存在着很强的正相关关系,这意味着在较大的视频背景下,我们平均预测出更多的语义边缘。
我们进一步对5个上下文数量范围内的比率进行平均,并以绿色绘制它们。上下文数量与动作-背景语义边缘比之间存在很强的正相关关系,说明我们的G-TAD模型能够有效地在语义图中找到相关的上下文片段。

4.6. Visualization

图6显示了ActivityNet-1.3和THUMOS-14的一些定性检测结果。在图8中,我们可视化了在GCNeXt各层的训练过程中语义图的演变。具体地说,我们将一个视频输入到G-TAD中,并可视化在0、3、6和9epoch的第一、中间和最后一层出现的语义图的训练。第一层的语义图是相同的,因为它们建立在相同的输入特征上。当我们向不同的层次和epoch前进时,语义图自适应地更新它们的边缘。有趣的是,随着训练的进行,我们观察到更多的上下文边缘。这说明G-TAD逐渐学会了在检测过程中融入多重语境。
在这里插入图片描述
图6。定性的结果。我们展示了ActivityNet-1.3(上)和THUMOS-14(下)的定性检测结果。
在这里插入图片描述
图8。G-TAD训练过程中的语义图演化。在训练epoch0、3、6和9期间,我们在第一层、中间层和最后层可视化语义图。第一层的语义边缘总是相同的,而中间层和最后一层的语义图则不断演化以包含更多的上下文。

5. Conclusion

在本文中,我们将视频定义为图形,将时间动作检测任务转换为子图定位问题。我们以视频片段作为图节点,以片段关联作为边,并应用图卷积作为基本运算。我们提出了一种新的结构G-TAD来定位子图。G-TAD包括GCNeXt块,用于从语义相关的片段聚合上下文特征,以及一个SGAlign层,用于将子图特征转换为向量表示。使用层叠动态图卷积,G-TAD可以自适应地学习丰富的多层次语义上下文。大量的实验表明,G-TAD可以在不需要额外监督的情况下找到全局视频上下文,并且在THUMOS-14和ActivityNet-1.3上都达到了目前的水平

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值