Mining Inter-Video Proposal Relations for Video Object Detection

最新推荐文章于 2022-03-24 14:19:59 发布

breeze_blows

最新推荐文章于 2022-03-24 14:19:59 发布

阅读量1.5k

点赞数 1

分类专栏：论文视频目标检测文章标签： HVR-Net 视频目标检测论文代码

本文链接：https://blog.csdn.net/breeze_blows/article/details/108796729

版权

论文同时被 2 个专栏收录

18 篇文章 3 订阅

订阅专栏

视频目标检测

5 篇文章 22 订阅

订阅专栏

Mining Inter-Video Proposal Relations for Video Object Detection. ECCV2020的一篇视频目标检测文章

论文链接：https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426.pdf

补充材料：https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426-supp.pdf

代码：https://github.com/youthHan/HVRNet

视频目标检测论文整理：https://github.com/breezelj/video_object_detection_paper

主要思想：以外的视频目标检测都是在单个视频序列中挖掘proposal之间的联系，进而聚合时空信息增强视频目标检测器的表现，即intra-proposal relation within single video。忽视了各个视频序列之间的inter-video proposal relation，而这种关系对于那些confusing object（比如两个类之间的外观特别相似，该类物体就被称为confusing object，详细见下文解释）的识别特别重要，这是我见到的第一篇考虑各个视频序列间proposal的论文，

首先阐述什么是confusing object，就像下图中的subplot (a)中的cat，在单个视频序列中只能得到cat look like和how it moves的信息，但是无法获取cat在其他视频序列的联系与形变信息，就像在subplot (b) 中的target video (cat) 看起来就很相似dog而和cat不相似，所以这个时候就要借助其他视频序列的信息，比如support video(cat) (与target video (cat) 序列最不像的cat序列)，support video (dog) （与target video (cat) 序列最像的其他类的序列）。

整个方法的流程如下图所示。

主要步骤如下：

1.video-level Triplet selection：

找和target video最不相似的同类 support video和最相似的不同类 support video。首先从视频序列中选取K个类，每个类选取N个视频序列（每个视频序列包含T帧），所以一共有K*N个视频序列，这里的K，N最后值都为3，在这K*N个视频序列种随机选取一个序列作为target video，另外作为support videos，对于每个序列，从T帧中随机选取一帧作为target frame，其他帧作为support frames。为了选择和target video 最不相似的 support video（该序列的类和target含有的类一样），和target video 最相似的 support video（该序列的类和target含有的类不一样）。作者的做法也很简单粗暴，直接把support videos的所有帧直接送入backbone得到feature，每个video的features 为H*W*C*T维度，然后直接在H*W和C维度做全局池化操作，最后得到一个C维的vector，然后计算各个video得到的vector之间的cosine similarity，找到

2.intra-video proposal relation：

在每个video内部用support video的proposal去enhance proposal of target frame。对Vtriple中的每个视频序列分别进行处理，挖掘单个video内部proposal之间的relation，进而增强target frame中proposal的feature能力，

其中v属于Vtriplet， Xt,m是target frame中的proposal，Xi,j是support frame中的proposal，主要就是找到target frame中的proposal和support frame中的proposal的relation，然后用support frame中的proposal 去enhance target frame中的proposal feature。这样做目的是处理单个视频内的物体的运动模糊，遮挡问题。

3.3 proposal-level Triplet selection

为target video中的每个proposal在support video中寻找最它最不像的同类proposal和最像的不同类proposal。具体就是比较proposal之间的cosine similarity。

4. inter-video proposal relation

用第三步中得到的Ptriplet中的P+和P-去增强Ptarget

最大进一步增加Ptarget和P+之间的联系，减少Ptarget和P-之间的联系，提出一个新的loss

Ldetection就是传统的检测的分类和回归损失，在Supplementary Material中γ = 1，λ = 10。Lrelation就是用来实现进一步增加Ptarget和P+之间的联系，减少Ptarget和P-之间的联系。这里的d表示为euclidean distance。从而alleviate inter-video object confusion问题

最后整个结构如下

最后文中做了很多消融实验来验证方法的有效性。

对intra-video和inter-video进行实验

对第一步的video-level Triplet selection和第三步的proposal-level Triplet selection选择方式进行实验，这里的simple代表随机选择video和直接选择所有的proposals。

对loss进行实验，可以看出Lrelation带来的提升很大，看来还是需要监督relation的学习。

对inter，intra module的个数进行实验

对测试帧数目进行实验，看来以往视频目标检测算法常用的测试帧数为21不一定达到饱和，31帧可以进一步提升

最后就是和其他视频检测算法的对比

breeze_blows

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Mining Inter-Video Proposal Relations for Video Object Detection

Mining Inter-Video Proposal Relations for Video Object Detection. ECCV2020的一篇视频目标检测文章论文链接：https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426.pdf补充材料：https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660426-supp.pdf代码：https:/
复制链接

扫一扫

专栏目录