【VIS】An Empirical Study of Detection-Based Video Instance Segmentation

本文解析了在ICCV workshop Large-Scale Video Object Segmentation Challenge中获得VIS赛道第二名的方案。该方案采用HTC进行目标提议生成,使用改进的SiamMask进行跟踪,并通过HRNet进行对象轨迹的重新分类,有效提高了视频对象分割的准确性和鲁棒性。
摘要由CSDN通过智能技术生成

本文ICCV workshop Large-Scale Video Object Segmentation Challenge中VIS第二名,王强组做的

Method

第一阶段都是先生成proposal,作者没有用MaskRCNN,用的HTC

第二阶段track,选择SiamMask并做一些改变。

如图,把两个SiamMask级联。

Stage1里的Box branch生成一个initial proposal of object‘s location,然后在Stage2生成一个mask。这个tracking mask用于找到和当前object有联系的proposal。具体的,会计算tracking mask和每个新的detection mask的IOU, 超过0.7认为是一个class,低于0.4认为不是一个。

第三阶段是Re-classification of object tracks,作者做了实验就是,如果直接把track中的所有detections的类别概率做平均,val效果会不好,会出现misclassified的情况,作者选择了一个后处理的方法来预测最终的class。用HRNet输入cropped images patches of the object along the track,来或者一个新的关于这个object分类概率的track。

 

缺点:后处理分类

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值