Video Visual Relation Detection
视频视觉关系预测方法VidVRD
主要贡献
- 出了一个新颖的VidVRD任务,旨在探索视频中物体之间的各种关系,它提供了一个比ImgVRD更可行的VRD任务;
- 提出了一种VidVRD方法,通过目标轨迹建议、关系预测和贪婪关系关联来检测视频中的视觉关系;
- 提供了第一个VidVRD评估数据集,包含1000个带有手动标记的视觉关系的视频。
主要特点
- 使用关系三元组 < s u b j e c t , p r e d i c a t e , o b j e c t > ∈ C × P × C <subject,predicate, object> ∈ C × P × C <subject,predicate,object>∈C×P×C 来表示一种由主体、谓语、客体三元组所代表的视觉关系,其中 C C C表示感兴趣的对象类别, P P P表示感兴趣的谓词;用 T s T_s Ts, T o T_o To来表示最大持续时间内,包围主体和客体的两个包围框序列(轨迹)。
- 不再用静态图片检测,如下图所示,可知从视频时空内容中提取的运动特征更有助于消除类似谓词的歧义,如“walk” or “run”。
- 与静态图片相比,视频中的视觉关系通常随时间变化,而图像的关系是固定的。物体可能被暂时遮挡或脱离画面,造成视觉关系的发生和消失。即使两个物体始终出现在同一视频帧中,它们之间的交互可能会暂时改变。如下图所示,其谓词从chase变成bite。
- 将目标视频分解成几个1秒的片段,从局部片段信息充分检测初始关系,使用贪婪的局部关联合并形成最终视频级的关系。
VidVRD的要求及对应的方法
要求 | 对应的方法 | |
---|---|---|
1 | VidVRD需要定位带有边框轨迹的对象。对象边界框轨迹的准确性同时受到每帧对象定位性能和对象跟踪性能的影响: | 在视频的每个重叠短片段中生成目标轨迹,然后根据预测的视觉关系将它们关联到目标轨迹中 |
2 | VidVRD需要在最大持续时间内对视觉关系进行时间定位。 | 如果它们有相同的关系三元组,并且它们的对象轨迹有足够高的重叠则用一种贪婪关联算法来合并相邻段中检测到的视觉关系实例 |
3 | VidVRD需要比ImgVRD预测更多类型的视觉关系,因为一些视觉关系只能在视频中检测到,如“A-towards-B”和“A-faster than- B” | 提出了一种关系预测模型,该模型从主体/客体轨迹对中提取多个特征。这些特征包括外观、运动和相关特征。将这些特征编码为关系特征,并使用独立的主语、谓语和宾语预测器预测视觉关系 |
已有的方法及对应改进方法
已有的方法 | 存在的问题 | 本方法的改进 | |
---|---|---|---|
视频目标检测 | 视频对象检测的目的是检测属于预定义类别的对象,并在给定的视频中使用边框轨迹来定位它们。最先进的方法通过整合图像目标检测和多目标跟踪的最新技术来解决这个问题 | 由于视频中存在模糊、摄像机运动和遮挡等因素,视频中的目标检测精度较低,阻碍了目标轨迹的精确定位。另一方面,基于检测跟踪策略的多目标跟踪由于目标检测器的高漏检率,容易产生较短的轨迹,因此需要开发额外的合并算法来获得更具有时间一致性的目标轨迹 | 利用视频目标检测器在短期内生成目标轨迹建议 |
视觉关系检测 | 为了通过从很少的训练示例中学习来建模和预测大量的关系,现有的方法大多分别预测视觉关系三元组中的主语、谓语和宾语;或通过利用语言先验和正则化关系嵌入空间提高性能。 | 在关联特征提取的问题上,可以使用基于坐标或二进制掩码的特征来提高空间关系检测的性能。也可以通过研究关系三元组各组成部分之间的视觉特征级连接,来利用额外的统计依赖,但建模需要O(NK)的参数 | 提出了一个视频特定关系特征和一个新的训练标准来学习独立的预测模型 |
行为识别 | 动作是视觉关系中的一种主要谓词类型,VidVRD可以利用动作识别的进展。在动作识别中,特征表示在处理大的类内变化、背景杂波和摄像机运动等方面起着至关重要的作用 | - | 利用改进密集轨迹(iDT) 作为本文方法的一部分特征 |
数据集
基于ILSVRC2016-VID的训练集和验证集构建了VidVRD的第一个评估数据集:
- 对象:30类+(人、球、沙发、滑板、飞盘)=35类(独立,没有对象之间的包含关系)
- 视频:1000个;将视频分解为30帧的片段,其中由15帧重叠,再进行谓词标记。
- 谓词:14个及物动词、3个比较词、11个空间谓词,11个不及物动词,能够衍生160类谓词。
主要实现
首先将给定的视频分解为一组重叠的片段,并在每个片段上生成目标轨迹建议。然后,通过特征提取和关系建模,预测每个对象对在所有分割上的短期关系。最后,通过对短期关系的贪婪关联产生视频视觉关系。
具体实现
对象Tracklet提议
- 给定一个视频,将其分解为带有L/2重叠帧的长度为L的片段(例如L=30),并在每个片段中生成对象轨迹建议。此方法可以减少目标跟踪算法中由于光照和遮挡等变化引起的漂移问题。且每个片段中的单个对象轨迹建议可以生成更多样化的候选集。
- 在MS-COCO和ILSVRC2016-DET数据集中的35个类别的训练/验证图像集合上,使用Resnet101为骨干的FasterRCNN训练目标检测器。
- 使用Dlib来实现跟踪跨段的帧级检测。
- 为了减少重叠建议的数量,在生成的tracklet上使用vIoU>0.5执行非最大抑制(NMS),其中vIoU表示两个tracklet的并集上的体积交集。平均每个段生成19.7个对象轨迹建议。
关系预测
- 假设(Ts,To)是一个段中的一对对象轨迹建议,其中每个建议都是一个包围框序列的形式。
- 模型如上图所示,学习单独的主体、谓词和客体预测器,以降低建模的复杂性,并利用各种关系中的公共组件。该模型还利用了丰富的关系特征,结合了主体和客体的外观特征和运动特征,以及它们之间的相对特征。