【MVOS】Efficient Video Object Segmentation via Network Modulation

论文地址 :http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_Efficient_Video_Object_CVPR_2018_paper.pdf

有代码!

Motivation

本文是semi-supervised的方法。最近有很多方法是在已有标注的视频帧上finetune出结果,所以作者想提出单一forward的网络segment instance object in video。

Pipline

网络的主体是“Segmentation Net”,Backbone是VGG16,作者在倒数四层每一层都加了一个“Modulator”,每个Modulator包括一个“Visual M”和“Spatial M”。

Visual Modulator

把visual guide frame(annotated first frame)输入网络(VGG16),并通过全链接,输出scalar个数为对应Segmentation Net最后4层通道数数。相当于学习Segmentation Net最后4层每个通道数的weight,每个通道学到的参数记作:

Spatial Modulator

把pre-mask变成一个2维高斯分布的heatmap,记作,用于添加一个location信息,会做下采样来和Segmentation Net最后四层的feature map 的尺寸对齐。同时还会对每次下采样的heatmap做一个防缩和平移(用一个1x1的卷积实现):

                                                               

Modulator

因此结合两者,可以得到每一层的输出:

Implementation details

作者也是先在image dataset上pretrain(stage1),再在video dataset(DAVIS2017)上finetune20 epoch。

Result

作者做了对比实验,-B实验是只在image 上pretrain,-M实验是作者在这两个网络最后一层加上作者设计的Modulator

就搞不懂作者说的FT是怎么样的

2020年01月08日

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值