Video Visual Relation Detection 论文阅读笔记

一、引言

在这里插入图片描述

视频能够提供更加贴合实际的特征来监测物体之间的关系:

  • 动作特征能够区分在静态图片上很难辨别的谓词,如walk与run;
  • 有很多关系不能够再图片上检测出来,如run past, faster than等,视频提供了一种更加灵活的方式;
  • 视频中的视觉关系可以是随着时间维度变化的,而图片是固定的。下图中狗和飞盘的相对位置变化造成了第2帧和第7帧不同的关系。

在这里插入图片描述

VidVRD中的视觉关系实例包括某关系在时间上的轨迹,如上图中,dog-chase-frisbee的轨迹范围为第2-4帧,dog-bite-frisbee的轨迹范围为第5-7帧。

难点:

  • 不仅需要定位物体,还需要跟踪。本文对所有重叠的视频短片段都生成物体轨迹;
  • 需要检测出每个关系的最大时间间隔。本文提出了一个贪婪关联算法,该算法合并相邻片段中物体重叠度较高同时预测为相同的关系的视频短片段。
  • 需要预测的视觉关系类型更加多样。本文提出了可以提取多重特征(表面、动作、相对)的关系预测模型。
二、数据集

本文提出了第一个视觉关系检测的数据集VidVRD,包含35个物体类别:

在这里插入图片描述

所有的物体都是一个原子个体,即该数据集不存在part-of类的关系标注,如bicycle-with-wheel。作者选择了14个及物动词(e.g. ride)、3个比较类型词(e.g. faster)、11个空间形容词(e.g. above)、11个不及物动词(e.g. walk),并将它们进行组合得到132个谓词类别来作为数据集的谓词标注范围:

在这里插入图片描述

整个数据集包含3219个视觉关系类型,测试集中有258个训练集没有的关系类型。

在这里插入图片描述

三、视频视觉关系检测

在这里插入图片描述

给定一个视频,将其分解成多个片段,每一个片段包含L帧(e.g. 30),片段之间的重叠帧为L/2(e.g. 15),然后在每一个片段中生成物体轨迹候选。然后对每一个片段中的物体候选对,提取它们的classeme特征(即预测概率的logits值)、iDT特征(HoG+HoF+MBH)、相对特征,并将它们进行混合,然后训练三个分类器,然后将三个分类器的输出概率值进行相乘联合进行softmax运算,得到每一个片段的预测结果。最后再使用贪婪关联算法将lont-term的动作进行合并,得到最后的结果。

Relation Prediction:

在这里插入图片描述

从轨迹候选 T s \mathcal{T}_{s} Ts T o \mathcal{T}_o To中提取物体的特征,提取的方法为iDT算法:

  • HoG(Histogram of Gradient):

    1. 转化为灰度图,然后直方图均衡化,增加图像的对比度;

    2. 计算图像的的梯度,首先计算像素点(x,y)在x方向和y方向的梯度,其次计算梯度幅值和梯度方向,在实际实现中可以分别用1*3的梯度算子[-1, 0, 1]卷积实现:
      G x ( x , y ) = H ( x + 1 , y ) − H ( x − 1 , y ) G y ( x , y ) = H ( x , y + 1 ) − H ( x , y − 1 ) G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 α ( x , y ) = t a n − 1 ( G y ( x , y ) G x ( x , y ) ) G_{x}(x, y)=H(x+1, y)-H(x-1, y)\\ G_{y}(x, y)=H(x, y+1)-H(x, y-1)\\ G(x, y)=\sqrt{G_{x}(x, y)^2+G_{y}(x, y)^2}\\ \alpha (x, y)=tan^{-1}(\frac{G_{y}(x, y)}{G_{x}(x, y)}) Gx(x,y)=H(x+1,y)H(x1,y)Gy(x,y)=H(x,y+1)H(x,y1)G(x,y)=Gx(x,y)2+Gy(x,y)2

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值