【VIS】Dual Embedding Learning for Video Instance Segmentation

最新推荐文章于 2021-12-21 20:47:47 发布

Rlin_by

最新推荐文章于 2021-12-21 20:47:47 发布

阅读量398

点赞数

分类专栏：论文阅读文章标签： VIS ICCV2019

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rlin_by/article/details/104155607

版权

论文阅读专栏收录该内容

14 篇文章 1 订阅

订阅专栏

本文ICCV workshop Large-Scale Video Object Segmentation Challenge中VIS第三名

Abstract

two-stage的framework，第一步先选择高质量的detection proposals，每个proposal会用一个global context校准。然后每个proposal会通过一个IPDT（bi-directional Instance-Pixel Dual-Tracker）时序地扩展，IPDT可以同时tracking instance level（区别不同实例）和pixel level（关注local feature of instance）。

Introduction

讨论了与semi-VOS不同之处，1）不会给出第一帧的GT；2）mask-rcnn和faster-rcnn这种检测器很难检测出视频序列里新的instance，可能是因为视频里的low resolution和motion blur；3）两个instance的重叠或者一些遮挡会增加难度，尤其当一个instance消失或者重新出现；4）新出现的id的tracking

Approach

Pipline

1. 用Mask-RCNN得到object candidates。每个candidate的category由整个视频的给global context校准。鉴于有很多proposals与同一个object有关，会过滤到一些勉强的来减少计算量。

2. 用IPDT来增加selected proposals in forward 和backward，tracker 不仅locate 相邻帧的the detected instance on instance level，而且学习local embedding from pixel level

Class Calibration

依据：多数objects 会出现超过1帧以上

我们首先计算每个class 的average score在所有候选框中。大于阈值的可以当作一个class。

Bi-directional Instance-Pixel Dual-Tracker

Instance-level Embedding Learning

分割当前帧时，先提出某个instance的ROI feature，然后用一个Siamese network作为RPN。该Siam结构包含两部分：1）一个判别器决定当前RPN proposal是否是和reference一个instance；2）一个计算相似度来refine。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。