Video Visual Relation Detection
视频视觉关系预测方法VidVRD
主要贡献
- 出了一个新颖的VidVRD任务,旨在探索视频中物体之间的各种关系,它提供了一个比ImgVRD更可行的VRD任务;
- 提出了一种VidVRD方法,通过目标轨迹建议、关系预测和贪婪关系关联来检测视频中的视觉关系;
- 提供了第一个VidVRD评估数据集,包含1000个带有手动标记的视觉关系的视频。
主要特点
- 使用关系三元组 < s u b j e c t , p r e d i c a t e , o b j e c t > ∈ C × P × C <subject,predicate, object> ∈ C × P × C <subject,predicate,object>∈C×P×C 来表示一种由主体、谓语、客体三元组所代表的视觉关系,其中 C C C表示感兴趣的对象类别, P P P表示感兴趣的谓词;用 T s T_s Ts, T o T_o To来表示最大持续时间内,包围主体和客体的两个包围框序列(轨迹)。
- 不再用静态图片检测,如下图所示,可知从视频时空内容中提取的运动特征更有助于消除类似谓词的歧义,如“walk” or “run”。
- 与静态图片相比,视频中的视觉关系通常随时间变化,而图像的关系是固定的。物体可能被暂时遮挡或脱离画面,造成视觉关系的发生和消失。即使两个物体始终出现在同一视频帧中,它们之间的交互可能会暂时改变。如下图所示,其谓词从chase变成bite。
- 将目标视频分解成几个1秒的片段,从局部片段信息充分检测初始关系,使用贪婪的局部关联合并形成最终视频级的关系。
VidVRD的要求及对应的方法
要求 | 对应的方法 | |
---|---|---|
1 | VidVRD需要定位带有边框轨迹的对象。对象边界框轨迹的准确性同时受到每帧对象定位性能和对象跟踪性能的影响: | 在视频的每个重叠短片段中生成目标轨迹,然后根据预测的视觉关系将它们关联到目标轨迹中 |
2 | VidVRD需要在最大持续时间内对视觉关系进行时间定位。 | 如果它们有相同的关系三元组,并且它们的对象轨迹有足够高的重叠则用一种贪婪关联算法来合并相邻段中检测到的视觉关系实例 |
3 | VidVRD需要比ImgVRD预测更多类型的视觉关系,因为一些视觉关系只能在视频中检测到,如“A-towards-B”和“A-faster than- B” | 提出了一种关系预测模型,该模型从主体/客体轨迹对中提取多个特征。这些特征包括外观、运动和相关特征。将这些特征编码为关系特征,并使用独立的主语、谓语和宾语预测器预测视觉关系 |
已有的方法及对应改进方法
已有的方法 | 存在的问题 | 本方法的改进 | |
---|---|---|---|
视频目标检测 | 视频对象检测的目的是检测属于预定义类别的对象,并在给定的视频中使用边框轨迹来定位它们。最先进的方法通过整合图像目标检测和多目标跟踪的最新技术来解决这个问题 | 由于视频中存在模糊、摄像机运动和遮挡等因素,视频中的目标检测精度较低,阻碍了目标轨迹的精确定位。另一方面,基于检测跟踪策略的多目标跟踪由于目标检测器的高漏检率,容易产生较短的轨迹,因此需要开发额外的合并算法来获得更具有时间一致性的目标轨迹 | 利用视频目标检测器在短期内生成目标轨迹建议 |
视觉关系检测 | 为了通过从很少的训练示例中学习来建模和预测大量的关系,现有的方法大多分别预测视觉关系三元组中的主语、谓语和宾语;或通过利用语言先验和正则化关系嵌入空间提高性能。 | 在关联特征提取的问题上,可以使用基于坐标或二进制掩码的特征来提高空间关系检测的性能。也可以通过研究关系三元组各组成部分之间的视觉特征级连接,来利用额外的统计依赖,但建模需要O(NK)的参数 | 提出了一个视频特定关系特征和一个新的训练标准来学习独立的预测模型 |
行为识别 | 动作是视觉关系中的一种主要谓词类型,VidVRD可以利用动作识别的进展。在动作识别中,特征表示在处理大的类内变化、背景杂波和摄像机运动等方面起着至关重要的作用 | - | 利用改进密集轨迹(iDT) 作为本文方法的一部分特征 |
数据集
基于ILSVRC2016-VID的训练集和验证集构建了VidVRD的第一个评估数据集:
- 对象:30类+(人、球、沙发、滑板、飞盘)=35类(独立,没有对象之间的包含关系)
- 视频:1000个;将视频分解为30帧的片段,其中由15帧重叠,再进行谓词标记。
- 谓词:14个及物动词、3个比较词、11个空间谓词,11个不及物动词,能够衍生160类谓词。
主要实现
首先将给定的视频分解为一组重叠的片段,并在每个片段上生成目标轨迹建议。然后,通过特征提取和关系建模,预测每个对象对在所有分割上的短期关系。最后,通过对短期关系的贪婪关联产生视频视觉关系。
具体实现
对象Tracklet提议
- 给定一个视频,将其分解为带有L/2重叠帧的长度为L的片段(例如L=30),并在每个片段中生成对象轨迹建议。此方法可以减少目标跟踪算法中由于光照和遮挡等变化引起的漂移问题。且每个片段中的单个对象轨迹建议可以生成更多样化的候选集。
- 在MS-COCO和ILSVRC2016-DET数据集中的35个类别的训练/验证图像集合上,使用Resnet101为骨干的FasterRCNN训练目标检测器。
- 使用Dlib来实现跟踪跨段的帧级检测。
- 为了减少重叠建议的数量,在生成的tracklet上使用vIoU>0.5执行非最大抑制(NMS),其中vIoU表示两个tracklet的并集上的体积交集。平均每个段生成19.7个对象轨迹建议。
关系预测
- 假设(Ts,To)是一个段中的一对对象轨迹建议,其中每个建议都是一个包围框序列的形式。
- 模型如上图所示,学习单独的主体、谓词和客体预测器,以降低建模的复杂性,并利用各种关系中的公共组件。该模型还利用了丰富的关系特征,结合了主体和客体的外观特征和运动特征,以及它们之间的相对特征。
1. 关系特征提取
T s T_s Ts和 T o T_o To的外观和运动特征
(1) 利用HoG、HoF和MBH分段提取改进的密集轨迹(iDT)特征,捕获运动特征,和低层次视觉特征;
(2) 对特征进行编码,在iDT中为四种描述符类型每种训练一个codebook,每个codebook大小设置为1000;
(3) 将
T
T
T的对象特征计算为包含在
T
T
T中的一个iDT特征包,其中位于
T
T
T区域内的iDT的一半被认为是封闭的;
(4) 添加一个类集特征classeme,这是分类概率的N-d向量,用来编码视觉外观;
T s T_s Ts和 T o T_o To的相对特征
(1)
T
s
T_s
Ts在
t
t
t时间相对于
T
o
T_o
To的中心点为
C
s
t
=
(
x
s
t
,
y
x
t
)
C_s^t=(x_s^t,y_x^t)
Cst=(xst,yxt),尺寸大小为
S
s
t
=
(
w
s
t
,
h
x
t
)
S_s^t=(w_s^t,h_x^t)
Sst=(wst,hxt),提出了一个描述相对位置
Δ
C
\Delta C
ΔC、大小
Δ
S
\Delta S
ΔS和运动
Δ
M
\Delta M
ΔM的相对特征:
∆
C
=
(
C
s
1
−
C
o
1
,
.
.
.
,
C
s
L
−
C
o
L
)
∆C=(C_s^1−C_o^1, . . . ,C_s^L−C_o^L)
∆C=(Cs1−Co1,...,CsL−CoL)
∆
S
=
(
S
s
1
−
S
o
1
,
.
.
.
,
S
s
L
−
S
o
L
)
∆S=(S_s^1−S_o^1, . . . ,S_s^L−S_o^L)
∆S=(Ss1−So1,...,SsL−SoL)
∆
M
=
(
∆
C
2
−
∆
C
1
,
.
.
.
,
∆
C
L
−
∆
C
L
−
1
)
∆M=(∆C^2-∆C^1,...,∆C^L-∆C^{L-1})
∆M=(∆C2−∆C1,...,∆CL−∆CL−1)
(2) 为了描述丰富的空间关系,如“behind”、“bigger”和“past”,以及它们的各种组合,如“past behind”,使用字典学习为每种类型的描述符训练一个码本。具体来说,将每个codebook的大小设置为1,000,并随机抽取100,000个描述符进行训练。得到的码本中的元素可以解释为原子相对特征,从而将复杂的相对特征用它们的线性组合表示出来。
T
s
T_s
Ts和
T
o
T_o
To的相关性特征就是将
∆
C
、
∆
S
、
∆
M
∆C、∆S、∆M
∆C、∆S、∆M相应的码本进行连接。
T s T_s Ts和 T o T_o To总体关系特征
(1) 对象轨迹建议的总体关系特征向量就是 T s T_s Ts和 T o T_o To的外观、运动特征及其相对特征的连接。
2. 关系建模
在给定关系特征的情况下,关系模型通过综合主语、谓语和宾语预测因子的得分来预测可能的关系三元组。为了对关系三元组产生良好的排名分数,本文在统一的训练损失下联合训练预测器。特别地,采用乘法积分的方法,制定训练目标,将训练数据中观察到的关系三元组进行分类:
f
f
f是三元组
<
s
i
,
p
j
,
o
k
>
<s_i,p_j,o_k>
<si,pj,ok>的关系特征,
P
s
P^s
Ps,
P
p
P^p
Pp,
P
o
P^o
Po分别是主语,谓语和宾语的预测词。因为只对最高的关系预测得分感兴趣,所以使用softmax损失。
贪婪关联算法
采用关系关联算法对短期检测到的关系进行合并。将其合并为具有置信度的单一视觉关系,置信度为:
c
^
=
1
n
−
m
+
1
∑
t
=
m
n
c
t
\hat c=\frac{1}{n-m+1}\sum_{t=m}^n{c^t}
c^=n−m+11t=m∑nct
c
t
{c^t}
ct是关系模型预测的短期得分。具体算法如下所示,
实验结果
- 本文方法与不同的组件在视觉关系检测和视觉关系标签上的评价。
- 不同方法在视觉关系检测和视觉关系标签的结果。
- 不同方法对零命中视觉关系检测和视觉关系标记的结果。
总结
本文提出了一种新的视觉任务VidVRD,旨在检测视频中以关系三元组和物体轨迹形式存在的所有视觉关系实例。针对VidVRD中存在的技术难题,提出了一种由对象轨迹建议、关系预测和贪婪关系关联组成的方法。此外,本文还构建了一个包含1000个视频的VidVRD数据集,这些视频都是人工标记的视觉关系。在数据集上的实验结果表明,本文方法在视觉关系检测和视觉关系标记方面都优于现有的基线。在未来,即将重点解决弱监督学习框架的挑战的VidVRD。