参考代码:MaskTrack
1. 概述
导读:这篇文章借鉴了实例分割与目标跟踪的思想,从而得到视频分割方法MaskTrack。文章的方法使用静态图像(非标注的视频序列)就可以完成训练工作,并且输入的信息可以为边界框、分割图或是合并多个带注释的帧,输入的范围很宽泛,这就使其可以运用到不同的场合下去。这篇文章的重点是将离线(从上一帧预测结果上生成优化之后的掩膜)和在线学习(获取特定的实例目标分割结果)策略互补地组合起来实现更加精细的目标分割。
这篇文章提出的方法使用相邻两帧之间的相关性,而不是多帧之间或是整个视频序列的相关系进行视频分割,其中对于分割质量较为关键是两个策略:在线与离线学习策略
- 1)离线学习:这里使对图像掩模进行变形和粗糙化,以训练网络可以根据其粗略估计输入生成准确的输出掩模;
- 2)在线学习:这里将目标跟踪里面的思想迁移到视频分割里面,并使该方法能够根据新输入视频中感兴趣的对象轻松地进行优化;
2. MaskTrack方法设计
这篇文章将视频目标分割从另外一个角度转换为引导的实例分割。也就是从现有分割网络的基础上(例如文章说到的DeepLabv2)转换并训练它实现逐帧的实例分割。这样带来一个问题是怎么让网络知道哪个实例需要进行分割?对此文章提出两个互补的策略去解决这个问题。
- 1)通过离线学习使用预估出来的前一帧掩膜引导网络偏向于目标实例;