Mining Inter-Video Proposal Relations for Video Object Detection

Mining Inter-Video Proposal Relations for Video Object Detection. ECCV2020的一篇视频目标检测文章

论文链接:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426.pdf

补充材料:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426-supp.pdf

代码:https://github.com/youthHan/HVRNet

视频目标检测论文整理:https://github.com/breezelj/video_object_detection_paper

主要思想:以外的视频目标检测都是在单个视频序列中挖掘proposal之间的联系,进而聚合时空信息增强视频目标检测器的表现,即intra-proposal relation within single video。忽视了各个视频序列之间的inter-video proposal relation,而这种关系对于那些confusing object(比如两个类之间的外观特别相似,该类物体就被称为confusing object,详细见下文解释)的识别特别重要,这是我见到的第一篇考虑各个视频序列间proposal的论文,

首先阐述什么是confusing object,就像下图中的subplot (a)中的cat,在单个视频序列中只能得到cat look like和how it moves的信息,但是无法获取cat在其他视频序列的联系与形变信息,就像在subplot (b) 中的target video (cat) 看起来就很相似dog而和cat不相似,所以这个时候就要借助其他视频序列的信息,比如support video(cat) (与target video (cat) 序列最不像的cat序列),support video (dog) (与target video (cat) 序列最像的其他类的序列)。

 

整个方法的流程如下图所示。

 主要步骤如下:

1.video-level Triplet selection:

找和target video最不相似的同类 support video和最相似的不同类 support video。首先从视频序列中选取K个类,每个类选取N个视频序列(每个视频序列包含T帧),所以一共有K*N个视频序列,这里的K,N最后值都为3,在这K*N个视频序列种随机选取一个序列作为target video,另外作为support videos,对于每个序列,从T帧中随机选取一帧作为target frame,其他帧作为support frames。为了选择和target video 最不相似的 support video(该序列的类和target含有的类一样),和target video 最相似的 support video(该序列的类和target含有的类不一样)。作者的做法也很简单粗暴,直接把support videos的所有帧直接送入backbone得到feature,每个video的features 为H*W*C*T维度,然后直接在H*W和C维度做全局池化操作,最后得到一个C维的vector,然后计算各个video得到的vector之间的cosine similarity,找到

2.intra-video proposal relation:

在每个video内部用support video的proposal去enhance proposal of target frame。对Vtriple中的每个视频序列分别进行处理,挖掘单个video内部proposal之间的relation,进而增强target frame中proposal的feature能力,

其中v属于Vtriplet, Xt,m是target frame中的proposal,Xi,j是support frame中的proposal,主要就是找到target frame中的proposal和support frame中的proposal的relation,然后用support frame中的proposal 去enhance target frame中的proposal  feature。这样做目的是处理单个视频内的物体的运动模糊,遮挡问题。

 

3.3 proposal-level Triplet selection

为target video中的每个proposal在support video中寻找最它最不像的同类proposal和最像的不同类proposal。具体就是比较proposal之间的cosine similarity。

4. inter-video proposal relation

用第三步中得到的Ptriplet中的P+和P-去增强Ptarget

最大进一步增加Ptarget和P+之间的联系,减少Ptarget和P-之间的联系,提出一个新的loss

Ldetection就是传统的检测的分类和回归损失,在Supplementary Material中γ = 1,λ = 10。Lrelation就是用来实现进一步增加Ptarget和P+之间的联系,减少Ptarget和P-之间的联系。这里的d表示为euclidean distance。从而alleviate inter-video object confusion问题

最后整个结构如下

最后文中做了很多消融实验来验证方法的有效性。

对intra-video和inter-video进行实验

对第一步的video-level Triplet selection和第三步的proposal-level Triplet selection选择方式进行实验,这里的simple代表随机选择video和直接选择所有的proposals。

对loss进行实验,可以看出Lrelation带来的提升很大,看来还是需要监督relation的学习。

对inter,intra module的个数进行实验

对测试帧数目进行实验,看来以往视频目标检测算法常用的测试帧数为21不一定达到饱和,31帧可以进一步提升

 

最后就是和其他视频检测算法的对比

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值