参考代码:LucidDataDreaming
1. 概述
导读:文章针对在运动场景下需要高质量表现模型(VOS)的训练过程进行了探究,一般来讲训练这些模型到较高的性能,需要较多样的数据,这就需要较多的数据量,而这篇文章中比较有意思的点是提出了一种数据合成方法lucid data dreaming,文章使用这样的数据增广方式可以将需要的数据量减少20~1000倍,但是取得的效果能够与采用原始方法进行训练得到的结果近似,是一种和具有实用价值的数据增广技术。
这篇文章的方法嵌入到视频分割算法的训练流中,其流程见下图所示:
2. 方法设计
2.1 视频分割网络
文章中使用的视频分割方法利用了原始的图像数据 I t I_t It,前一帧的分割结果 M t − 1 M_{t-1} Mt−1,视频当前帧的光流梯度(使用FlowNet2) F t = h ( I t − 1 , I t ) F_t=h(I_{t-1},I{t}) Ft=h(It−1,It),因而将上面的信息可以得到2个stream的视频分割网络结构(一个stream输入为RGB图像,一个维光流梯度),之后把这两个stream的输出经过平均输出,则对应的输出为:
M t = 0.5 ∗ f I ( I t , … ) + 0.5 ∗ f F ( ∣ ∣ F t ∣ ∣ , … ) M_t=0.5*f_I(I_t,\dots)+0.5*f_F(||F_t||,\dots) Mt=0.5∗fI(It,…<