【VIS】Dual Embedding Learning for Video Instance Segmentation

本文ICCV workshop Large-Scale Video Object Segmentation Challenge中VIS第三名

Abstract

two-stage的framework,第一步先选择高质量的detection proposals,每个proposal会用一个global context校准。然后每个proposal会通过一个IPDT(bi-directional Instance-Pixel Dual-Tracker)时序地扩展,IPDT可以同时tracking instance level(区别不同实例)和pixel level(关注local feature of instance)。

Introduction

讨论了与semi-VOS不同之处,1)不会给出第一帧的GT;2)mask-rcnn和faster-rcnn这种检测器很难检测出视频序列里新的instance,可能是因为视频里的low resolution和motion blur;3)两个instance的重叠或者一些遮挡会增加难度,尤其当一个instance消失或者重新出现;4)新出现的id的tracking

Approach

Pipline

1.  用Mask-RCNN得到object candidates。每个candidate的category由整个视频的给global context校准。鉴于有很多proposals与同一个object有关,会过滤到一些勉强的来减少计算量。

2. 用IPDT来增加selected proposals in forward 和backward,tracker 不仅locate 相邻帧的the detected instance on instance level,而且学习local embedding from pixel level

Class Calibration

依据:多数objects 会出现超过1帧以上

我们首先计算每个class 的average score在所有候选框中。大于阈值的可以当作一个class。

Bi-directional Instance-Pixel Dual-Tracker

Instance-level Embedding Learning

分割当前帧时,先提出某个instance的ROI feature,然后用一个Siamese network作为RPN。该Siam结构包含两部分:1)一个判别器决定当前RPN proposal是否是和reference一个instance;2)一个计算相似度来refine。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值