《Efficient Regional Memory Network for Video Object Segmentation》论文阅读笔记

《Efficient Regional Memory Network for Video Object Segmentation》论文阅读笔记

论文链接:https://arxiv.org/pdf/2103.12934.pdf
GitHub地址:https://haozhexie.com/project/rmnet

1.摘要

最近,一些基于时空记忆的网络表明,过去帧中的物体线索(如视频帧以及分割后的物体掩码)对于分割当前帧中的物体很有用。然而,这些方法都是以全局到全局(Global-to-Global Matching)的方式对当前帧和过去帧和过去帧之间进行匹配的,这就会导致相似目标的错误匹配和高复杂的计算量。为了解决这个问题,作者提出从局部到局部(Local-to-Local Matching)的方式匹配当前帧和过去帧 用于半监督视频分割任务中(semi-supervised VOS),并命名为Regional Memory Net- work (RMNet)。
这篇论文的方法可以看作是在《Video Object Segmentation using Space-Time Memory Networks》(这篇文章的思想可以点击链接进行查看)文章的基础上进行的改进。主要改进有两个方面:1.时空记忆模块只保存目标区域;2.当前帧和之前帧之间的匹配计算只计算目标所在区域,文章中确定目标区域使用框的方式,类似于目标检测中的检测框完成的;3.时空记忆模块只保存前一帧的结果(应该是这样),4.增加一个TinyFlowNet生成光流信息用于将前一帧的mask转换到当前帧。

Global-to-Global的错误匹配示例和Local-to-Local可以正确匹配的示例如下图所示:

从左图红色实线和红色虚线可以看到,当从全局的角度对两帧进行目标匹配时,很容易将外形相似的目标匹配到一起,导致错误的匹配目标。所以作者提出,相邻的帧之间目标的移动范围是较小的,因此使用局部相近位置进行匹配会大大提升匹配的准确性,如右图所示。

2.实现方法

网络结构
网络整体架构在论文《Video Object Segmentation using Space-Time Memory Networks》基础上增加了一个TinyFlowNet网络生成光流信息用于将前一帧的mask转换到当前帧。Memory encoder中只保存目标区域位置的信息,可以有效的减少运算量并且可以避免目标的错误匹配。

3.其他

如果当前帧和之前帧之间没有目标区域交集(目标消失),那么使用保存的之前帧的全部信息用于后一帧。

4.实验

4.1 datasets

论文同样使用的两个流行的用于视频语义分割的数据集进行实验

Youtube-VOS

Youtube-VOS包含4453个带标注的多目标视频。验证集由包含91种目标的474个视频组成,其中65个在训练集种见过和26个未见过的目标种类。

DAVIS

DAVIS-2016是非常常用的单目标视频分割任务。验证集由20个高质量标注的视频组成。
DAVIS-2017是DAVIS-2017的扩展,是多目标视频分割任务。验证集由包含59个目标的30个视频组成。

4.2 部分实验结果

网络的训练两个阶段:先在静态图像应用随机仿射变换生成的合成数据集上进行预训练,再使用Youtube-VOS或DAVIS进行训练。

可视化结果:
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

起个什么名字好w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值