Summary - Unsupervised Video Object Segmentation using Online Mask Selection and Space-time Memory Networks
S. Garg, V. Goel, S. Kumar
The 2020 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2020
DAVIS-Unsupervised-Challenge-1st-Team
背景
半监督 VOS 的主要困难:
- Matching / Re-Identification
- Online Fine-tune
- Occlusion, Shape Variation, Motion Blur, Object Move-in/-out
无监督 VOS 额外增加了的挑战:
- 如何确定要分割的物体实例
无监督 VOS 可以先对第一帧进行实例分割 (proposal),再使用半监督 VOS 的方法完成。但这样不能达到最优性能,因为第一帧生成的 mask 质量不一定好,后面基于这个 mask 的半监督 VOS 方法预测出来的结果性能受限。
在本文中,作者在半监督 VOS 方法 STM 的基础上构建了模型,即使用 Proposal Generation + STM 的方法。
很有可能在第一帧中没有检测到所有的对象,因此作者修改了方法来添加和跟踪新添加的对象。作者注意到,即使在一帧中检测到一个对象,传播对象的 mask 质量有时也会显著降低。由于STM的输出依赖于先前的掩模,一旦 mask 质量下降,很难恢复好的 mask。
模型结构
文中的方法可以分成以下步骤:
1. 使用 Mask-RCNN 为视频中的所有帧生成 mask (generate object proposals M M M for each frame)。限定每帧生成的 object proposals 数量不超过 10 个。对于每一帧,选择置信度分数最高的 10 个 masks,并移除置信度低于 0.1 的 masks。
2. 利用 Mask-RCNN 生成的第一帧 mask 来初始化 STM,并生成 object masks S S S。
3. Associate M M M with S S S based on IOU。
若某些 objects 能够匹配上 (IOU > 0.5),则认为它们是旧的 objects,并将 S S S 的 id 赋到 M M M 上;若某些 objects 不能匹配上,则认为这些 objects 是新出现的,在后续步骤中加上。
4. 使用两个 Criterion,分别选择出更好的 mask。
Criterion 1:使用神经网络来对比较上面生成的两个 masks,并根据质量好坏为他们打上分数,选出更好的mask,作者将它命名为 Selector Net。输入是两个 4 通道图像 (binary mask + RGB image),分别独立地使用 ResNet-18 提取特征,concat 之后通过两个全连接层,得出两个分数。作者说 Selector Net 可以达到 82% 的准确度。
Criterion 2:比较 t 和 t - 1 帧的 mask,选择改变区域更少的 mask。
5. Offline selection of masks。
在第 4 步中得到了 2 个 mask (fig 1 中最后得到的 2 个 mask),再使用 Selector Net 选出更好的 mask,作为最终结果。
Experiments & Performance
在 test-challenge 上的结果:
在 test-dev 上的结果:
作者还对实验中不同阶段的结果做了比较:
总结
使用 Proposal Generation + STM 的方法,将半监督 VOS 改成 无监督 VOS。