《Efficient Regional Memory Network for Video Object Segmentation》论文阅读笔记
论文链接:https://arxiv.org/pdf/2103.12934.pdf
GitHub地址:https://haozhexie.com/project/rmnet
1.摘要
最近,一些基于时空记忆的网络表明,过去帧中的物体线索(如视频帧以及分割后的物体掩码)对于分割当前帧中的物体很有用。然而,这些方法都是以全局到全局(Global-to-Global Matching)的方式对当前帧和过去帧和过去帧之间进行匹配的,这就会导致相似目标的错误匹配和高复杂的计算量。为了解决这个问题,作者提出从局部到局部(Local-to-Local Matching)的方式匹配当前帧和过去帧 用于半监督视频分割任务中(semi-supervised VOS),并命名为Regional Memory Net- work (RMNet)。
这篇论文的方法可以看作是在《Video Object Segmentation using Space-Time Memory Networks》(这篇文章的思想可以点击链接进行查看)文章的基础上进行的改进。主要改进有两个方面:1.时空记忆模块只保存目标区域;2.当前帧和之前帧之间的匹配计算只计算目标所在区域,文章中确定目标区域使用框的方式,类似于目标检测中的检测框完成的;3.时空记忆模块只保存前一帧的结果(应该是这样),4.增加一个TinyFlowNet生成光流信息用于将前一帧的mask转换到当前帧。
Global-to-Global的错误匹配示例和Local-to-Local可以正确匹配的示例如下图所示:
从左图红色实线和红色虚线可以看到,当从全局的角度对两帧进行目标匹配时,很容易将外形相似的目标匹配到一起,导致错误的匹配目标。所以作者提出,相邻的帧之间目标的移动范围是较小的,因此使用局部相近位置进行匹配会大大提升匹配的准确性,如右图所示。
2.实现方法
网络结构
网络整体架构在论文《Video Object Segmentation using Space-Time Memory Networks》基础上增加了一个TinyFlowNet网络生成光流信息用于将前一帧的mask转换到当前帧。Memory encoder中只保存目标区域位置的信息,可以有效的减少运算量并且可以避免目标的错误匹配。3.其他
如果当前帧和之前帧之间没有目标区域交集(目标消失),那么使用保存的之前帧的全部信息用于后一帧。
4.实验
4.1 datasets
论文同样使用的两个流行的用于视频语义分割的数据集进行实验
Youtube-VOS
Youtube-VOS包含4453个带标注的多目标视频。验证集由包含91种目标的474个视频组成,其中65个在训练集种见过和26个未见过的目标种类。
DAVIS
DAVIS-2016是非常常用的单目标视频分割任务。验证集由20个高质量标注的视频组成。
DAVIS-2017是DAVIS-2017的扩展,是多目标视频分割任务。验证集由包含59个目标的30个视频组成。
4.2 部分实验结果
网络的训练两个阶段:先在静态图像应用随机仿射变换生成的合成数据集上进行预训练,再使用Youtube-VOS或DAVIS进行训练。
可视化结果: