【VIS】Video Instance Segmentation 2019: A winning approach for combined Detection, Segmentation, clas

最新推荐文章于 2024-08-20 14:47:49 发布

Rlin_by

最新推荐文章于 2024-08-20 14:47:49 发布

阅读量1k

点赞数

分类专栏：论文阅读文章标签： VIS ICCV2019

本文链接：https://blog.csdn.net/Rlin_by/article/details/104052186

版权

论文阅读专栏收录该内容

14 篇文章 1 订阅

订阅专栏

开始放假的论文阅读。今天读一下ICCV2019一个workshop里关于VIS的论文。今天是指标第一名的论文来自Team Jono《Video Instance Segmentation 2019: A winning approach for combined Detection, Segmentation, Classification and Tracking》作者说他的方法是把《UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking for the 2019 Unsupervised DAVIS Challenge》应用改编到VIS任务的。所以现看一下UnOVOST：

UnOVOST

本文方法包括5个stage：

第一个stage是object proposal mask generation：先用instance segmentation的网络为每一帧图片生成object proposals，这里不管这些object是前景还是背景或者是static还是moving object。这里和之前的方法不同（这些方法是假设前景objects都是运动的并且只关注前景）。

第二个stage，会在overlapping proposal masks 上用一个算法来再进一步选出每一帧中non-overlapping object proposals。

第三个stage，在一小段video sequence中会用optical-flow warping产生一个可以提供时序连续mask id的tracklets（路径？）把连续帧之间的object proposal masks连接起来。（tracklets可以在视频的任意时间节点开始和终止）。

第四stage，提出一个merge方法来让tracklets连起来，这样才能达到long-term的object tracks。

第五stage，最显著的object tracks会考量tracks的时序长度和detection 的confidence score找到。

用人话解释一下，就是先通过detector找到不管是前景背景静态动态的所有objects的proposals，然后把重叠的都去了，剩下不重叠的。之后就要做tracking，作者的放法不是在整段视频里tracking，而是把视频分成一小段一小段，在每一小段里做tracking得到每一小段的tracklets，再把这些tracklets想办法连起来，得到整个视频的track。最后综合前面的找到需要分割的显著性比较高的分割。

具体的，由Mask R-CNN生成proposals，任意两个proposals mask都会相互比较IOU，如果超过IOU>0.2，会选置信度高的，另外的会被去除；计算tracklets的方法是：把每一帧的每一个proposal mask 用光流wrap到下一帧，然后建立了一个二分graph（偶图？），图上nodes是proposal masks in successive frames，edges是warped proposal mask and the proposal mask in the next frame的IOU，然后通过寻找二分图的最大路径来生成tracklets，用贪心算法，只考虑IOU大于0.03的，如果一个proposal没有match到，那就结束一个tracklet；到第四stage用最近邻匹配proposal的ReID embedding vectors（这个vectors是由一个ResNet的变体上实现的），然后每个tracklet中proposals的ReID embedding vectors会做一个平均操作，得到的平均值用于merge 平均值相近（L2距离最小）的tracklets。这样的到的结果会是这样的：每个tracklet只有一个before-link，但会有很多after-link，因此还需要进一步determine最优的。作者采用了一个贪婪递归的track 选择方法，上一步其实构建了一个tree，先考虑从root到leaf节点的paths，每个path会用temporal gaps的总和作为它的score，即，父节点的finishing time和子节点starting time之间的帧数差。对于每个tree，会选择最低分的。然后重新建树。第五stage，用一个公式决定，