【VIS】Video Instance Segmentation 2019: A winning approach for combined Detection, Segmentation, clas

开始放假的论文阅读。今天读一下ICCV2019一个workshop里关于VIS的论文。今天是指标第一名的论文来自Team Jono《Video Instance Segmentation 2019: A winning approach for combined Detection, Segmentation, Classification and Tracking》作者说他的方法是把《UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking for the 2019 Unsupervised DAVIS Challenge》应用改编到VIS任务的。所以现看一下UnOVOST:

UnOVOST

本文方法包括5个stage:

第一个stage是object proposal mask generation:先用instance segmentation的网络为每一帧图片生成object proposals,这里不管这些object是前景还是背景或者是static还是moving object。这里和之前的方法不同(这些方法是假设前景objects都是运动的并且只关注前景)。

第二个stage,会在overlapping proposal masks 上用一个算法来再进一步选出每一帧中non-overlapping object proposals。

第三个stage,在一小段video sequence中会用optical-flow warping产生一个可以提供时序连续mask id的tracklets(路径?)把连续帧之间的object proposal masks连接起来。(tracklets可以在视频的任意时间节点开始和终止)。

第四stage,提出一个merge方法来让tracklets连起来,这样才能达到long-term的object tracks。

第五stage,最显著的object tracks会考量tracks的时序长度和detection 的confidence score找到。

用人话解释一下,就是先通过detector找到不管是前景背景静态动态的所有objects的proposals,然后把重叠的都去了,剩下不重叠的。之后就要做tracking,作者的放法不是在整段视频里tracking,而是把视频分成一小段一小段,在每一小段里做tracking得到每一小段的tracklets,再把这些tracklets想办法连起来,得到整个视频的track。最后综合前面的找到需要分割的显著性比较高的分割。

具体的,由Mask R-CNN生成proposals,任意两个proposals mask都会相互比较IOU,如果超过IOU>0.2,会选置信度高的,另外的会被去除;计算tracklets的方法是:把每一帧的每一个proposal mask 用光流wrap到下一帧,然后建立了一个二分graph(偶图?),图上nodes是proposal masks in successive frames,edges是warped proposal mask and the proposal mask in the next frame的IOU,然后通过寻找二分图的最大路径来生成tracklets,用贪心算法,只考虑IOU大于0.03的,如果一个proposal没有match到,那就结束一个tracklet;到第四stage用最近邻匹配proposal的ReID embedding vectors(这个vectors是由一个ResNet的变体上实现的),然后每个tracklet中proposals的ReID embedding vectors会做一个平均操作,得到的平均值用于merge 平均值相近(L2距离最小)的tracklets。这样的到的结果会是这样的:每个tracklet只有一个before-link,但会有很多after-link,因此还需要进一步determine最优的。作者采用了一个贪婪递归的track 选择方法,上一步其实构建了一个tree,先考虑从root到leaf节点的paths,每个path会用temporal gaps的总和作为它的score,即,父节点的finishing time和子节点starting time之间的帧数差。对于每个tree,会选择最低分的。然后重新建树。第五stage,用一个公式决定,

 Team Jono

基本就是大杂烩的感觉,在上面这一篇文章上加一个classification。。。

 

致命缺点:训练非常复杂,分割时间也不好掌握,但指标上是比较高的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值