半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks

最新推荐文章于 2024-05-19 20:17:05 发布

JYZhang_sh

最新推荐文章于 2024-05-19 20:17:05 发布

阅读量1.5k

点赞数

分类专栏：机器学习视频检测和分析深度学习文章标签：交互式分割视频分割深度学习神经网络

本文链接：https://blog.csdn.net/jyzhang_cvml/article/details/100923161

版权

机器学习同时被 3 个专栏收录

44 篇文章 7 订阅

订阅专栏

深度学习

33 篇文章 3 订阅

订阅专栏

视频检测和分析

10 篇文章 0 订阅

订阅专栏

在这里插入图片描述

Aim

在这里插入图片描述
实现一种视频分割的工作流：在视频的任意一帧上进行交互得到当前帧的修正结果，并传播到剩余帧。

Contribution

两个模块：Interaction Network 和 Propagation Network。
– Interaction Network：接受用户的交互 (如涂抹) 来分割前景物体。
– Propagation Network：将交互的帧上的分割结果，传播到其他相邻的帧。
– 将其通过 Feature Aggregation Module 的方式 internally 连接在一起，且相互的输出作为对方的输入而 externally 连接。
Multi-Round Training Scheme：模拟真实的交互式视频分割的场景。一次 Training Iteration 包含 Multi-Round，即多次交互 + 传播的过程。通过这样的方式，网络能够理解交互的意向并且在训练过程中修正错误。

Motivation 和 Related Work

Frame-by-frame 的操作 => Round-based interaction：挑选一帧进行标记，然后计算视频中剩余所有帧的结果。Round 越多效果越好
Unsupervised Methods：基于 appearance 或者 motion 显著性，而不能准确地挑选感兴趣的物体。
Semi-Supervised Methods：所谓半监督就是仅仅给出视频的一帧的金标准 (注意这里不是交互的方式)，然后目标是如何传播到整个视频序列。
– Online Learning： Fine-tuning at test time，然后对于每一帧进行 static image segmentation。
– Propagation-based：Bilateral Filter，Siamese two-stream networks (利用模拟的训练图像)也是本文 feature aggregation的启发

Methods

工作流

给定初始交互，仅仅根据交互信息得到所有帧上的分割结果。然后用户给出修正交互，算法根据初始分割结果和修正交互对上次结果进行修正。每个子网络的输入都有上一个round的分割结果。对于 Interaction Network，上一个 round 的分割结果是 Propagation Network 的输出；对于 Propagation Network，另一个输入上个时间点的分割结果是 Interaction Network 的输出

ROI 的设置

为了解决尺度问题。通过 ROI 使得 Training Loss 具有尺度不变性，而不用使用 balanced loss function。

Feature Aggregation Module

目标：避免 Propagation 过程中的误差累加。
方法：不同于传统方法比如用 Siamese network 直接考虑 reference frame，我们考虑的是用户交互帧中的信息。因此提出特征融合模块，积累所有之前的 Interaction Network 中编码的交互信息。将其 concat 在 Propagation Network 中尤其对于 Long-term 的传播具有很好的作用。
-Self-Attention机制：

Training 细节

Loss 的计算：对于每个 iteration, 对于每个中间结果计算 loss，然后进行反向传播。
在模拟的Static 图像上预训练，再在真实的 Video 上进行 Fine-Tuning：通过随机的形变等生成模拟的 video，只不过没有时间上的真实的信息。

Testing 细节

Propagation 还是存在误差累计，尤其是目标帧距离交互帧很远的时候。因此采用 continuous updating 和 restricted propagation。

Ablation Study

测试各个模块，和在模拟图像上预训练的有效性
在这里插入图片描述

Conclusion

其实之前就有一篇做交互式视频分割的文章 A. Benard and M. Gygli. Interactive video object segmentation in the wild. arXiv preprint arXiv:1801.00269, 2017.2，但是方法设计上没有本文来的巧妙 (Interaction-and-Propagation Network的贡献)。
另外，通过 Self-Attention 来设计 Propagation Network，能够直接考虑所有之前的交互信息，也是一个很值得玩味的点。
另一个小点：这样的修正 Multi-Round 结果，在设计框架时反应为每个 network 的输入都有上一个 round 的分割结果，其他的输入就是不同 network 的不同任务所需要的。

JYZhang_sh

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks

Aim实现一种视频分割的工作流：在视频的任意一帧上进行交互得到当前帧的修正结果，并传播到剩余帧。Contribution两个模块：Interaction Network 和 Propagation Network。– Interaction Network：接受用户的交互 (如涂抹) 来分割前景物体。– Propagation Network：将交互的帧上的分割结果，传播到其他相...
复制链接

扫一扫