Summary - Spatial Consistent Memory Network for Semi-supervised Video Object Segmentation

Peng Zhang, Li Hu, Bang Zhang, and Pan Pan

背景

近年许多 VOS 方法大致可分为 propagation-based methods 和 matching-based methods。STM 进一步发展了基于匹配的方法,利用 memory network 从过去所有帧中读取相关信息。STM 在特征空间中进行密集匹配以检索有用的信息,从而可以处理外观变化和遮挡等挑战。

然而,基于匹配的机制没有考虑空间一致性。当有相似的物体进入视野时,模型有时会出现错误的预测。此外,在有大尺度变化(large scale variances)的情况下,模型可能表现得更差。

本文在下面几点对 STM 进行了改进:

  • 增加了空间约束模块(Spatial Constraint Module)。以确保相邻帧之间的空间一致性,消除外观混淆,消除由同一类别的相似实例引起的错误预测。
  • 在 segmentation head 中
    • 增加了 ASPP (Atrous Spatial Pyramid Pooling) 模块。解决尺度变化(scale variability)问题。
    • BASNet 的启发,使用了另外的 refinement module。提升性能,尤其是分割图像的边缘。
  • ResNeST101 作为 backbone
  • 训练策略类似于 STM,但做了一些改进

模型结构

在这里插入图片描述

Spatial Constraint Module

图 2 是 Spatial Constraint Module 的具体操作,图中绿色方块是 spatial prior。

图 3 中对一些帧对应的 spatial prior 进行可视化,可以看到 spatial prior 能够高亮出特定对象的区域。

在这里插入图片描述
在这里插入图片描述

Segmentation Head

Spatial Constraint Module 旨在准确捕获目标对象,但还不足以得到一个高质量的分割结果。因此增加了如下 ASPP 模块来解决尺度变化问题。为了进一步提高边缘精确度,使用了如下的 refine module。

在这里插入图片描述

Training Strategy

为了减少占用显存,如图 5:

  • 在每个迭代中在一个视频中选择 3 帧,以及 2nd、3rd 帧前一帧的 gt mask,作为 prior
  • 1st 帧作为参考帧(reference frame),仅在 2nd 和 3rd 帧上计算 prediction 和 loss
  • 为了减少训练和测试之间的差距,在最后几个 epochs 中减少了采样帧之间的最大跳转次数 (maximum skip number)。

这样,就可以将预测的 mask 用于 memory network 和 Spatial Constraint Module。

在这里插入图片描述

Performance & Ablation Experiments

表 1 显示了本文的模型取得了 84.1 J&F score,比 DAVIS 2019 的 winner 提升了 7.4。

通过 Ablation Experiments 评估了各种模型改进对性能的影响。baseline 模型是 STM,在此基础上改用 ResNeSt101 backbone,获得了 2.9 的性能提升。再使用本文的 Segmentation Head 和 Spatial Constraint,分别获得 2.8 和 1.0 的性能提升。对于其他的 tricks 见表 2。

在这里插入图片描述

总结

本文在 STM 的基础上做了多种改进,并使用了多种 tricks,使得性能提升了不少。

explicit spectral-to-spatial convolution for pansharpening是一种用于全色融合的显式光谱到空间卷积方法。全色融合是将高分辨率的全色(黑白)图像与低分辨率的多光谱(彩色)图像融合,以提高图像质量和细节。传统的融合方法常常使用高通滤波器进行频域操作,而explicit spectral-to-spatial convolution for pansharpening则使用基于卷积的空间域方法。 该方法基于以下原理:在全色图像中,光谱分辨率高,但空间分辨率较低;而在多光谱图像中,光谱分辨率较低,但空间分辨率较高。因此,通过将全色图像的光谱信息传递给多光谱图像,可以提高多光谱图像的空间分辨率。 explicit spectral-to-spatial convolution for pansharpening方法通过使用卷积核,将全色图像的光谱信息转换为空间域的高频细节。这个卷积核是根据光谱和空间信息之间的关系而设计的。通过将这个卷积核应用于低分辨率的多光谱图像,可以增强其空间细节,使其接近高分辨率的全色图像。 这种方法的优势在于显式地将光谱信息转换为空间域的细节,能够更好地保留图像的光谱特征和空间细节。与传统的频域方法相比,显式光谱到空间卷积方法更容易实现,并且能够更好地适应各种图像场景。 总之,explicit spectral-to-spatial convolution for pansharpening是一种通过卷积将全色图像的光谱信息转换为多光谱图像的空间细节的方法,以实现全色融合,提高图像质量和细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值