Summary - A Transductive Approach for Video Object Segmentation

最新推荐文章于 2022-04-18 12:42:44 发布

wuzht3

最新推荐文章于 2022-04-18 12:42:44 发布

阅读量496

点赞数

分类专栏： summary

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MRMRWWW/article/details/107567253

版权

summary 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

[paper] [code]

参考博客：https://blog.csdn.net/m_buddy/article/details/106883529

背景

目前流行的大多数 VOS 方法都需要依赖在光流和实例分割等其他领域训练出来的附加模块的信息，这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题，这个方法不需要额外的子计网络模块，数据，或是专用的网络结构。文中的方法采用了一种基于特征空间的特征相似度的标签传播方法。与其他传播方法不同的是，文中将较为长期的目标特性考虑在内，从而有较好的帧间一致性。TVOS 使用 ResNet50 作为 backbone，在 DAVIS-2017 val set 上达到了 72.3% 的分数，test set 上达到了63.1%，并且能达到 37 fps 的速度。

方法

在训练时，模型首先计算参考帧和当前帧的相似度矩阵，再与参考帧的 label 做点乘得到当前帧的 mask，再计算交叉熵损失。

在 inference 时，先前的方法依赖的是相邻帧，或开头给定的参考帧。而文中的方法使用了从开始帧到当前帧的信息。

在这里插入图片描述

帧采样方法

使用从开始帧到当前帧的所有信息进行 mask 传导，但为了减少计算量分割网络会对当前帧的邻近帧密集采样，那些时序上相对较远的帧就采样相对稀疏。

在这里插入图片描述

Performance

TVOS 方法与其他方法在 DAVIS-2017 val数据集上的表现比较如下，无论在分割性能上和速度上都有较大的优势。

在这里插入图片描述

在 DAVIS-2017 val 数据集上的性能表现：
在这里插入图片描述
在 DAVIS-2017 上训练，在 Youtube-VOS 上测试，可以看到模型的泛化能力较好：

在这里插入图片描述

Ablation Experiments

改变选择参考帧数量和方法对结果的影响：

在这里插入图片描述

总结

文中的主要思想是在 spatio-temporal volume 中利用更多的未标记结构用于视频对象分割。模型通过传导推理得到这种结构，不需要额外的模块、数据集或专门的架构设计。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Summary - A Transductive Approach for Video Object Segmentation

[paper] [code]参考博客：https://blog.csdn.net/m_buddy/article/details/106883529背景目前流行的大多数 VOS 方法都需要依赖在光流和实例分割等其他领域训练出来的附加模块的信息，这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题，这个方法不需要额外的子计网络模块，数据，或是专用的网络结构。文中的方法采用了一种基于特征空间的特征相似度的标签传播方法。与其他传播方法不同的是，文中将较为.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。