一、引言
视频能够提供更加贴合实际的特征来监测物体之间的关系:
- 动作特征能够区分在静态图片上很难辨别的谓词,如walk与run;
- 有很多关系不能够再图片上检测出来,如run past, faster than等,视频提供了一种更加灵活的方式;
- 视频中的视觉关系可以是随着时间维度变化的,而图片是固定的。下图中狗和飞盘的相对位置变化造成了第2帧和第7帧不同的关系。
VidVRD中的视觉关系实例包括某关系在时间上的轨迹,如上图中,dog-chase-frisbee的轨迹范围为第2-4帧,dog-bite-frisbee的轨迹范围为第5-7帧。
难点:
- 不仅需要定位物体,还需要跟踪。本文对所有重叠的视频短片段都生成物体轨迹;
- 需要检测出每个关系的最大时间间隔。本文提出了一个贪婪关联算法,该算法合并相邻片段中物体重叠度较高同时预测为相同的关系的视频短片段。
- 需要预测的视觉关系类型更加多样。本文提出了可以提取多重特征(表面、动作、相对)的关系预测模型。
二、数据集
本文提出了第一个视觉关系检测的数据集VidVRD,包含35个物体类别:
所有的物体都是一个原子个体,即该数据集不存在part-of类的关系标注,如bicycle-with-wheel。作者选择了14个及物动词(e.g. ride)、3个比较类型词(e.g. faster)、11个空间形容词(e.g. above)、11个不及物动词(e.g. walk),并将它们进行组合得到132个谓词类别来作为数据集的谓词标注范围:
整个数据集包含3219个视觉关系类型,测试集中有258个训练集没有的关系类型。
三、视频视觉关系检测
给定一个视频,将其分解成多个片段,每一个片段包含L帧(e.g. 30),片段之间的重叠帧为L/2(e.g. 15),然后在每一个片段中生成物体轨迹候选。然后对每一个片段中的物体候选对,提取它们的classeme特征(即预测概率的logits值)、iDT特征(HoG+HoF+MBH)、相对特征,并将它们进行混合,然后训练三个分类器,然后将三个分类器的输出概率值进行相乘联合进行softmax运算,得到每一个片段的预测结果。最后再使用贪婪关联算法将lont-term的动作进行合并,得到最后的结果。
Relation Prediction:
从轨迹候选 T s \mathcal{T}_{s} Ts和 T o \mathcal{T}_o To中提取物体的特征,提取的方法为iDT算法:
-
HoG(Histogram of Gradient):
-
转化为灰度图,然后直方图均衡化,增加图像的对比度;
-
计算图像的的梯度,首先计算像素点(x,y)在x方向和y方向的梯度,其次计算梯度幅值和梯度方向,在实际实现中可以分别用1*3的梯度算子[-1, 0, 1]卷积实现:
G x ( x , y ) = H ( x + 1 , y ) − H ( x − 1 , y ) G y ( x , y ) = H ( x , y + 1 ) − H ( x , y − 1 ) G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 α ( x , y ) = t a n − 1 ( G y ( x , y ) G x ( x , y ) ) G_{x}(x, y)=H(x+1, y)-H(x-1, y)\\ G_{y}(x, y)=H(x, y+1)-H(x, y-1)\\ G(x, y)=\sqrt{G_{x}(x, y)^2+G_{y}(x, y)^2}\\ \alpha (x, y)=tan^{-1}(\frac{G_{y}(x, y)}{G_{x}(x, y)}) Gx(x,y)=H(x+1,y)−H(x−1,y)Gy(x,y)=H(x,y+1)−H(x,y−1)G(x,y)=Gx(x,y)2+Gy(x,y)2
-