Target Adaptive Context Aggregation for Video Scene Graph Generation
视频场景图中的目标自适应上下文聚合
论文地址:https://arxiv.org/pdf/2108.08121.pdf
github地址:https://github.com/MCG-NJU/TRACE
主要贡献
- 提出一种新的视频级VidSGG检测跟踪范式,称为目标自适应上下文聚合网络TRACE,可以将关系预测的上下文建模与复杂的底层实体跟踪分离开;
- TRACE简化了VidSGG管道,是一种纯框架级的VidSGG框架,在获取时空上下文信息进行关系识别方面具有更模块化的框架;
- .在TRACE中,提出了一种自适应结构,称为层次关系树HRTree。用于高效地组织可能的关系候选,实现了候选关系之间的上下文信息聚合,还可以节省内存,从而获得比全连接图更好的性能。
与其他方法相比
现有的基准VidSGG大致可以分为两种类型:
- 视频级场景图:需要根据关系的精确时间边界,提前准确地将长视频修剪成短片段(如30帧)。这个设置不能很容易地适应未裁剪视频中的真实的VidSGG,因为由于时间的模糊,裁剪是困难和主观的。
- 帧级场景图:图在帧级定义,在短片段中,关系会随着时间的变化而变化;更加灵活,可以利用时间关联跟踪相邻结果,很容易地生成视频级的场景图;
Video Relation Detection with Spatio-Temporal Global Contex、Video relation detection with spatio-temporal graph、Video visual relation detection都忽略了帧级场景图,直接根据目标跟踪结果识别视频级关系。结果,它们都产生了高度依赖跟踪的沉重管道。
主要实现
这是一种高效的自适应框架来选择和传播视频中的上下文信息,即目标自适应上下文聚合网络(TaRget adaptive Context AggrEgation Network, TRACE)。
- TRACE的关键是用自适应层次关系树(HRTree)组织关系候选对象,并在此基础上对每个关系候选对象进行目标-自适应上下文信息聚合。HRTree不仅有助于信息聚合,而且可以在有限的内存消耗下高效地处理大量的候选关系。
- 在有效的上下文信息聚合方面,本文提出了一个专注的时间信息选择性融合模块和一个定向传播模块来捕获空间结构信息。
- 最后,每个候选对象的目标自适应聚合表示可以为关系分类提供足够的上下文信息。
- 此外,本文使用一种常见的时序关联算法将帧级图链接到视频级结果中。
- 具体来说,模型的输入是一个密集采样短剪辑视频及其中心帧,利用一个3D CNN提取视频的时间特征,一个2D CNN提取中心帧表示,以及一个对象检测网络用于对象候选对象及其视觉特征。基于这些低级的可视化表示,TRACE通过HRTree构建、上下文聚合、关系分类和可选的时间关联等模块简化了VidSGG管道。
具体实现
层次关系树HRTree的构造
- HRTree采用自底向上的层次构建结构,叶子节点表示中心帧中检测到的对象,非叶节点从子节点派生,并表示它们的复合关系,每个节点的两两相似度之和是: s c o r e k = ∑ i e − ∣ ∣ f k − f i ∣ ∣ 2 score_k=\sum_i^{e^{-{||f_k-f_i||}^2}} scorek=∑ie−∣∣fk−fi∣∣2,其中 s c o r e k score_k scorek编码了节点 k k k的相对位置信息, f f f表示空间坐标。
- 在获得一层节点的得分后,根据得分对节点进行排序,选择其中一部分作为中心。将其他节点合并到离它们最近的中心点,更新的中心点变成当前层的父层。
- 对于中心的选择有2种方案,如下图所示:
(1)从得分最高到最低,每隔一个节点选择一个作为中心;
(2)将节点数量固定为子节点总数的一半。分别从得分最高的部分和得分最低的部分中选取一半作为中心。
- 候选关系数量为 O ( n ) O(n) O(n),和全连接图相比,关系候选数大大减少,节省了内存。
目标自适应上下文聚合
1. 时间融合模块
- 对于每个非叶节点,即关系候选节点,从3D CNN特征图中提取与该关系候选节点对应的特征表示。
- 它首先通过反复拉伸候选边界框形成一个管来实现,然后通过使用标准RoI Align操作,在每个时间点提取一个特征与相应的框在管中,得到的跨时间特征用于当前关系候选的时间信息聚合。
- 本文提出了两种时间信息融合的方法:
(1)如下图所示,将多头注意机制应用于这些时间特征,并以空间特征作为查询。它本质上是三维特征的加权和,其中权重是基于二维特征自适应学习的。
(2)如下图所示,对三维骨干的输出采用时间差分操作提取运动特征,并采用简单平均池化操作进行时间融合。
在实验部分可知,这两种时间融合模块对于与运动相关的某些类型的关系是有效的。然而,对于一些短期关系的认识,其改善并不明显。
2. 空间传播模块
- 空间传播模块即基于HRTree的空间上下文聚合机制。
- 其采用了一种组合tree-gru模式来实现双向传播方式下的上下文聚合:
HRTree中节点特征在特征维度上被划分为多个组。然后,每个组中的特征被送入一个独立的tree-gru中。在每个tree-gru中,首先执行自底向上的特性聚合。然后,进行自顶向下的特性优化,这相当于一个通用的GRU。随后,应用多层感知器(MLP)对特征进行连接,生成上下文化特征。 - 在实验中,可以观察到该空间传播模块可以有效地聚合空间上下文信息进行关系识别。
关系分类
分类头模块主要负责关系推理,主要有四个分支,图下如所示。
1. 视觉分支
2D CNN骨干输出后,进行ROI Align,并结合成对对象建议生成关系特征图。获取每个关系特征图后,主体和客体的特征向量对其降维版本进行注意力机制:首先利用特征图与特征向量在每个像素上的余弦相似度生成得分图,然后利用特征图与softmax后得分图之间的元素乘积生成注意力图。其中注意力图和特征图主要用于分类。
2. 融合分支
将主体和客体的分类分数输入到词嵌入模块。然后将嵌入的特征向量与分类器空间传播模块中的上下文关系特征进行连接。主体与客体的连接向量的语境化的关系特性属于它们在HRTree中的最小共同祖先。
3. 主体/客体分支
采用和Graphical contrastive losses for scene graph parsing相同的主体客体结构。
4. 统计优先分支
用主体客体分类统计作为输入。
时间链接模块
即将帧级场景图融合到视频级结果的时间链接策略,具体如下图所示:
- 首先将长视频片段划分为重叠的视频片段(如每段30帧,每段15帧),然后对每段进行跟踪。从跟踪中获得的目标轨迹用于这种链接。
- 对于一个视频片段,使用帧级场景图对四分之一的帧进行采样以进行链接。如果一个三元组只出现在一个帧中,则直接用它的预测得分来计数。对于在多个框架中具有相同预测类别的三元组,如果他们的主体和对象分别属于相同的轨迹,则对三元组进行一次计算,并将其得分相加。
- 就整个视频而言,两个相邻片段之间的三元组只有在它们的预测类别相同且它们的主体/客体轨迹的vIoU超过0.5的阈值时才有关联。视频级别的分数可以是平均或最高。作为一个贪婪的方式,在组合过程中的得分高的三元组优先于其他三元组。
实验结果
数据集
- ImageNet-VidVRD (VidVRD):为每个帧标记时空注释标签。经过转换后,每帧中关系和对象的平均数量分别为9.7和2.5,每个对象对中的关系数量平均约为2.0。
- Action Genome (AG):预处理后,每帧的关系数和对象数平均分别为7.3和3.2,每个对象对中的关系数量平均为3.3个。此外,AG中主体边界框与客体边界框重叠的三元组数超过85%。
评估标准
- ImageNet-VidVRD (VidVRD):使用关系检测的 R e c a l l Recall Recall和 m A P mAP mAP来评估模型。并考虑关系标记。此外,对每对对象保持前20个预测关系以供评估。将预测框视为命中的阈值设置为0.5。
- Action Genome (AG):采用三种模式来评价AG:场景图检测(SGDet)、场景图分类(SGCls)和谓词分类(PredCls)。传统评估指标是 R e c a l l Recall Recall,但由于关系分布的不平衡,还引入了 R e c a l l ( m R ) Recall (mR) Recall(mR), m A P r e l mAP_{rel} mAPrel和 w m A P r e l wmAP_{rel} wmAPrel。由于存在多重关系,限制每一对对象只能预测一个三元组的图约束在这里并不适用。此外,为了避免预测随机击中真实三元组的情况,每对对象只允许对应的k个预测,并且k设置为6或7。
损失函数
采用关系的二元交叉熵和对象的交叉熵的加权和,其中关系的权重为1.0,对象的权重为0.5。
训练细节
- 使用Resnet为骨干的Faster R-CNN目标检测器。
- 利用2D ResNet5提取中心帧上的关系特征,利用I3D ResNet50预处理Kinetics数据集,提取时间信息。
- 训练TRACE时,冻结主干中用于对象特征提取的所有层。
测试细节
目标检测后保留前100个目标建议,每帧使用IoU为0.5的NMS。由于AG中大多数物体都是相互接触的,所以只对SGDet用重叠的包围框预测成对关系。
消融实验
上下文聚合模块方面
- 删除上下文聚合模块并使用两种HRTree:每种方案的TRACE融合HRTree都优于没有融合的模型。
ps: 由于全连通图(FC-G)具有成对关系节点形成完全二部图,其内存成本较大,所以降低了FC-G的参数并报告了其性能。
VidVRD
AG:将Tree-1参数减少到相同的水平。
- 在VidVRD上与没有时间融合模块的RelDN对比:证明了纯框架级上下文聚合的有效性。
时间融合模块方面
- 两种时间融合方案在VidVRD上的结果比较:
- 因为上面方案1的时间融合模块TRACE在Recall的性能优于方案2的时间融合模型和没有时间融合的模型,但在mAP的性能较差。因此在AG上进行进一步分类分解实验:
检测-跟踪框架方面
之前的方法几乎都是跟踪-检测框架。
- 在VidVRD上将TRACE与VidVRD-C和Liu的Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Contex仅用对象特征进行比较:
不同分组数量方面
- 在VidVRD上将TRACE与上下文聚合结构中的不同分组数量进行比较:
性能对比
- 在VidVRD上在通过使用对象特性和I3D特性来将TRACE与Liu的Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Contex进行比较。†表示使用基本时间链接与平均评分,而‡意味着使用最大评分。
- 在AG上比较:
总结
该文提出了一个模块化框架,称为目标自适应上下文聚合网络(TRACE)。为了适应和高效地获取时空背景信息,其设计了一种新的层次关系树来进行时间注意融合模块和空间信息传播模块。其方法结合了简单的时间关联策略,产生了一个模块化的视频级VidSGG基线,在ImageNet-VidVRD的视频级度量下,获得了最佳的性能,而不使用复杂的跟踪功能。对于纯框架级的VidSGG任务,TRACE仍然在Action Genome的基准上实现了最高水平的结果。