【MVOS】Efficient Video Object Segmentation via Network Modulation

最新推荐文章于 2022-07-25 19:06:59 发布

Rlin_by

最新推荐文章于 2022-07-25 19:06:59 发布

阅读量671

点赞数

分类专栏：论文阅读文章标签： CVPR2018 VOS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rlin_by/article/details/103897022

版权

论文阅读专栏收录该内容

14 篇文章 1 订阅

订阅专栏

论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_Efficient_Video_Object_CVPR_2018_paper.pdf

有代码！

Motivation

本文是semi-supervised的方法。最近有很多方法是在已有标注的视频帧上finetune出结果，所以作者想提出单一forward的网络segment instance object in video。

Pipline

网络的主体是“Segmentation Net”，Backbone是VGG16，作者在倒数四层每一层都加了一个“Modulator”，每个Modulator包括一个“Visual M”和“Spatial M”。

Visual Modulator

把visual guide frame（annotated first frame）输入网络（VGG16），并通过全链接，输出scalar个数为对应Segmentation Net最后4层通道数数。相当于学习Segmentation Net最后4层每个通道数的weight，每个通道学到的参数记作：

Spatial Modulator

把pre-mask变成一个2维高斯分布的heatmap，记作，用于添加一个location信息，会做下采样来和Segmentation Net最后四层的feature map 的尺寸对齐。同时还会对每次下采样的heatmap做一个防缩和平移(用一个1x1的卷积实现)：

Modulator

因此结合两者，可以得到每一层的输出：

Implementation details

作者也是先在image dataset上pretrain（stage1），再在video dataset（DAVIS2017）上finetune20 epoch。

Result

作者做了对比实验，-B实验是只在image 上pretrain，-M实验是作者在这两个网络最后一层加上作者设计的Modulator

就搞不懂作者说的FT是怎么样的

2020年01月08日

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。