本文ICCV workshop Large-Scale Video Object Segmentation Challenge中VIS第三名
Abstract
two-stage的framework,第一步先选择高质量的detection proposals,每个proposal会用一个global context校准。然后每个proposal会通过一个IPDT(bi-directional Instance-Pixel Dual-Tracker)时序地扩展,IPDT可以同时tracking instance level(区别不同实例)和pixel level(关注local feature of instance)。
Introduction
讨论了与semi-VOS不同之处,1)不会给出第一帧的GT;2)mask-rcnn和faster-rcnn这种检测器很难检测出视频序列里新的instance,可能是因为视频里的low resolution和motion blur;3)两个instance的重叠或者一些遮挡会增加难度,尤其当一个instance消失或者重新出现;4)新出现的id的tracking
Approach
Pipline
1. 用Mask-RCNN得到object candidates。每个candidate的category由整个视频的给global context校准。鉴于有很多proposals与同一个object有关,会过滤到一些勉强的来减少计算量。
2. 用IPDT来增加selected proposals in forward 和backward,tracker 不仅locate 相邻帧的the detected instance on instance level,而且学习local embedding from pixel level
Class Calibration
依据:多数objects 会出现超过1帧以上
我们首先计算每个class 的average score在所有候选框中。大于阈值的可以当作一个class。
Bi-directional Instance-Pixel Dual-Tracker
Instance-level Embedding Learning
分割当前帧时,先提出某个instance的ROI feature,然后用一个Siamese network作为RPN。该Siam结构包含两部分:1)一个判别器决定当前RPN proposal是否是和reference一个instance;2)一个计算相似度来refine。