《RGMP：Fast Video Object Segmentation by Reference-Guided Mask Propagation》论文笔记

最新推荐文章于 2023-04-19 08:48:01 发布

m_buddy

最新推荐文章于 2023-04-19 08:48:01 发布

阅读量974

点赞数

分类专栏：图像&视频分割文章标签： RGMP

本文链接：https://blog.csdn.net/m_buddy/article/details/106593922

版权

RGMP结合帧间掩模传递和检测方法的优点，提出了一种快速视频对象分割网络，适用于单目标和多目标分割。通过Siamese编码器和两阶段训练模式处理遮挡和快速移动目标，同时减少累计误差。实验结果显示在DAVIS数据集上的优秀分割性能和效率。

摘要由CSDN通过智能技术生成

参考代码：RGMP

1. 概述

导读：这篇文章在Siamese编解码网络结构的基础上，将视频分割网络中的mask传导与目标检测思想（数据增广的时候）相结合，克服彼此存在的问题，从而构建除了一个新的视频分割的网络，并且其速度还挺快，能跑到大概10FPS（ResNet-50的backbone，并不需要任何在线学习与后处理）。并且文章的方法能够实现单目标与多目标分割，在对应的数据集上分割性能与运算速率较好的分割结果。

在视频分割领域中一般的方法主要分为两个流派，一个是基于帧间mask传递与基于检测的，他们有各自的特点与不足：

1）基于帧间mask传导：这种方法利用了目标在时序上的相关性，从给定的第一帧图像数据标注开始进行mask传导。这些方法是依赖于像素间的时序关系，因而可以使用复杂的目标形变以及目标的移动，只要满足在视野中出现且平滑移动。但是对应的缺点是不能处理遮挡与快速的目标移动，并且存在累计误差的问题；
2）基于检测的方法：基于检测的方法是在每帧上预测目标的位置，其结果并不依赖于帧间的时序信息，因而对于遮挡与漂移有较好的鲁棒性能。但是这些方法存在对目标的外表比较敏感，并且无法分离具有相似外表的目标；

正是基于上面提到的不同视频分割基底的方法优缺点，文章将这两种类型的方法进行整合，从而得到文章的方法，将文章的方法与一些视频分割算法进行对比，其结果见下图1所示：
在这里插入图片描述

2. 方法设计

2.1 网络结构

这篇文章的网络结构是一个编解码结构的网络，其在输入端采纳了参考帧与其标注信息以及前一桢分割结果当前帧的信息，从而去预估当前帧的结果。文章是采用ImageNet上预训练的ResNet-50网络作为backbone，被设计成为一个全卷积的网络结构，因而可以适应不同尺寸图像的输入。因而文章的网络结构为：
在这里插入图片描述

2.1 Siamese encoder

编码器部分的输入是4通道的，采用的是一个Siamese的结构。由于输入是4通道的，因而文章对这个多出来的通道在backbone的第一个卷积上增加了一个filter（使用的是随机初始化）。

Global convolution block
这一部分首先是将编码器输出的两组数据流进行concat，之后就经过这个模块了。为了克服卷积操作自身带有的局部特性，文章将卷积核进行设计，即是采用 $1 * k + k * 1$ 与 $k * 1 + 1 * k$ 的组合，其中 $k = 7$ ，之后经过一个残差模块输出，这里卷积的channel数目都为256。