Beyond Short-Term Snippet: Video Relation Detection with Spatio-Temporal Global Contex
超越短片段:基于时空上下文的视频关系检测
论文地址:https://ieeexplore.ieee.org/document/9157717/
主要贡献
- 提出了一个滑动窗口方案,同时预测短期和长期关系。在对象tracklet上运行具有不同内核大小的窗口来生成具有不同持续时间的子tracklet;
- 构建了一个时空图,并利用图卷积网络生成上下文,进行兼容性评估,只预测高度兼容的对的关系。
- 该方法在ImageNet-VidVRD和VidOR数据集上跨多个任务实现了最先进的性能。特别是对于ImageNet-VidVRD,在所有评估指标下,获得了平均3%的改进(R@50从8.07%到11.21%)。
研究背景
视频视觉关系检测(VidVRD)旨在描述视频中所有交互对象。与静态图像中的关系不同,视频包含一个额外的时间通道。
现有的大多数作品都是将视频划分为几个短片段,预测每个片段中的关系,然后合并它们。这种方法不能捕捉涉及长动作的关系。预测相邻视频段之间的相同关系也是低效的。
与已有方法对比
- Video visual relation detection 将目标视频分解成几个1秒的片段,从局部片段信息充分检测初始关系,使用贪婪的局部关联合并形成最终视频级的关系。
- Video relationship reasoning using gated spatio-temporal energy graph使用马尔可夫随机场MRF进行关系建议细化,然而这是一种全局方法的错觉,其增强了相邻段之间的平滑性,但是还是使用贪婪的算法来获取视频级别的结果,无法识别超过三个片段的长时间;
- Video relation detection with spatio-temporal graph中基于GCN的方法也用到类似的参数;
如下图所示,现有的典型的基于分段的视频视觉关系检测方法在每个短段中分别检测关系,然后合并。在贪婪关系关联阶段,黑条、红条和蓝条分别对应直接检测到的关系、合并后检测到的关系和缺失的关系(主要是由于持续时间长)。
根据VidVOR数据集中所有关系的平均持续时间,如下图所示,几乎所有的关系都持续超过一秒,跨越多个视频片段。单独预测每段中的关系并将其合并在一起,会在相似的外观下对同一关系进行冗余计算。
主要实现
- 对象Tracklets提案阶段
使用滑动窗口方法生成具有不同长度的对象轨迹建议。对于每个窗口,此时间间隔内的所有tracklet建议都将输入第二阶段进行兼容性评估;
需要确保在不同时间尺度上观察关系,来提高在连续帧中检测相同关系的效率; - 关系对提案阶段:
将空间和时间信息聚合为提案特征来装配兼容的主客体对。
需要构造时空图细化特征,并利用图卷积网络将上下文信息嵌入到特征中; - 关系分类阶段
提取出视觉特征、I3D特征和相对运动特征,结合起来预测关系;
由于不相关的对在阶段2中被过滤掉,阶段3中的所有计算将导致有效的关系。
具体实现
对象Tracklets提案
1. 视频对象检测
(1)使用具有Resnet101骨干的Faster-RCNN作为检测器,检测器对MS-COCO和ILSVRC2016-DET数据集的图像进行训练,共35类。
(2)对目标检测结果进行NMS,减少边界盒之间的重叠区域。
(3)目标跟踪时使用多对象跟踪MOT算法,选择深度排序作为跟踪器,从RoI池中获得的目标检测特征作为深度排序的视觉特征,深度排序可以整合视觉特征作为匹配描述符来提高跟踪性能。
(4)在检测部分执行NMS,而不是跟踪部分,可以防止不同类别的轨迹重叠而被错误删除的问题。
2. 采用滑动窗口方法来生成对象Tracklets提案
(1)考虑到真正的关系实例在其持续时间上通常会有很大的变化,需要在多个内核大小的情况下运行滑动窗口例程。
(2)假设轨迹帧长度为L,将最小窗口大小设置为30帧,最大窗口大小设置为L。采样所有小于L的最小窗口大小的倍数,将L作为滑动窗口的长度。采样的步幅设置为窗口大小的一半。
(3)优势在于:
- 可以观察到某些只存在于长视频中的关系;
- 不需要再相邻的段中合并相同的关系,可以避免合并的代价和冗余预测的代价。
关系对提案:过滤不相容的提议
- 构造了一个空间图和一个时间图来进行信息聚合。图中的每个节点代表一个对象tracklet提议,阶段1中的tracklet提议特征是每个节点的初始值。在两个图中,每个节点之间的边分别计算为空间IoU和时间IoU。
- 使用图卷积网络将空间和时间上下文信息分别嵌入到基于上述两个图的tracklet特征中。得到的两个特征向量连接起来,形成每个节点的最终特征,将空间和时间信息聚集在一个表示中。
- 然后,所有节点的嵌入被送入一对相关嵌入模块,为每个tracklet生成兼容性增强表示。这个模块确保兼容的tracklet允许特征向量之间的高余弦相似度。两个特征相似度较高的tracklet建议被判定为相关建议对,并发送到第三阶段。
具体步骤
- 将阶段1中获得的tracklet建议表示为 { P 1 , P 2 , … , P N } \{P_1,P_2,…,P_N\} { P1,P2,…,PN},其中 N N N是对象tracklet提议的数量。
- 为了把空间上下文信息编码到特征中,使用每两个对象tracklet之间的空间IoU构建一个空间图:假设在M帧中检测到了tracklet提议 P i P_i Pi,用 p i ˉ \bar{p_i} piˉ表示M帧中的边界框平均值; P i P_i Pi和 P j P_j Pj之间的sIoU为 p i ˉ \bar{p_i} p