《Video Object Segmentation using Space-Time Memory Networks》论文阅读笔记

本文链接：https://blog.csdn.net/weixin_43118001/article/details/120834491

《Video Object Segmentation using Space-Time Memory Networks》论文阅读笔记

论文地址：https://openaccess.thecvf.com/content_ICCV_2019/html/Oh_Video_Object_Segmentation_Using_Space-Time_Memory_Networks_ICCV_2019_paper.html
GitHub地址：https://github.com/haochenheheda/Training-Code-of-STM

1. 摘要

对于实际问题，随着中间的预测结果，可用的线索会变得更加丰富，但是已存在的方法并没有充分的利用这个丰富的信息，因此作者提出使用一个记忆网络记录中间的信息，并学习从中读取相关信息，辅助后续帧的分割。

2.整体架构

网络结构主要由memory和query两部分构成。memory用于记录之前帧的信息，query是当前帧的处理过程。

2.1 Encoder&Decoder

其中encoder使用resnet50作为backbone，并在之后接两个平行分支，一个分支使用通道数为128的3x3卷积，生成key map，另一个分支使用通道数为512的3x3卷积，生成value map，需要注意的一点是query encoder的输入是三维的RGB frame，而memory encoder的输入是四维的，由RGB frame和单通道的probability map组成。decoder由residual block和refinement module组成，具体构成如下图所示：
encoder和decoder组成形式

2.2 space-time memory read

query和memory的联系是通过该操作完成的，首先query和memory中的key相乘并经过softmax操作，作为权重系数与memory中的value相乘，再和query拼接到一起作为query decoder的输入。

3.描述

作者描述key的目的是为了定位，即计算query key和memory key特征之间的相似度，以确定何时何地检索相关的memory value。因此，Key被学习来编码视觉语义，以匹配鲁棒的外观变化。另一方面，value存储产生掩码估计的详细信息(例如目标对象和对象边界)。query和memory中的value包含用于不同目的的信息。具体来说，query value用于存储详细的外观信息，以便我们准确地解码对象mask。memory value学习编码视觉语义和关于每个特征是属于前景还是背景的mask信息。
另外，在实际实验中，作者设置在memory中每5帧保存一次中间帧的结果，可以兼顾准确性和速度。