Summary - A Transductive Approach for Video Object Segmentation

[paper] [code]

参考博客:https://blog.csdn.net/m_buddy/article/details/106883529

背景

目前流行的大多数 VOS 方法都需要依赖在光流和实例分割等其他领域训练出来的附加模块的信息,这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题,这个方法不需要额外的子计网络模块,数据,或是专用的网络结构。文中的方法采用了一种基于特征空间的特征相似度的标签传播方法。与其他传播方法不同的是,文中将较为长期的目标特性考虑在内,从而有较好的帧间一致性。TVOS 使用 ResNet50 作为 backbone,在 DAVIS-2017 val set 上达到了 72.3% 的分数,test set 上达到了63.1%,并且能达到 37 fps 的速度。

方法

在训练时,模型首先计算参考帧和当前帧的相似度矩阵,再与参考帧的 label 做点乘得到当前帧的 mask,再计算交叉熵损失。

在 inference 时,先前的方法依赖的是相邻帧,或开头给定的参考帧。而文中的方法使用了从开始帧到当前帧的信息。

在这里插入图片描述

帧采样方法

使用从开始帧到当前帧的所有信息进行 mask 传导,但为了减少计算量分割网络会对当前帧的邻近帧密集采样,那些时序上相对较远的帧就采样相对稀疏。

在这里插入图片描述

Performance

TVOS 方法与其他方法在 DAVIS-2017 val数据集上的表现比较如下,无论在分割性能上和速度上都有较大的优势。

在这里插入图片描述

在 DAVIS-2017 val 数据集上的性能表现:
在这里插入图片描述
在 DAVIS-2017 上训练,在 Youtube-VOS 上测试,可以看到模型的泛化能力较好:

在这里插入图片描述

Ablation Experiments

改变选择参考帧数量和方法对结果的影响:

在这里插入图片描述

总结

文中的主要思想是在 spatio-temporal volume 中利用更多的未标记结构用于视频对象分割。模型通过传导推理得到这种结构,不需要额外的模块、数据集或专门的架构设计。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值