本文中,利用modulators快速地调整segementation networks使其可以适应特定的物体,而不需要执行数百次的梯度下降;同时不需要调整所有的参数。在视频目标分割上有两个关键的点:视觉外观和空间中持续的移动。为了同时使用视觉和空间信息,将visual modulator和spatial modulator进行合并,在第一帧的标注信息和目标空间位置的基础上分别学习如何调整main segmentation network。
Conditional batch normalization
在batch normalization的基础上,每个scale和bias参数都有第二个网络生成,每一层CBN网络可以如下定义,
y c = γ c x c + β c y_c = \gamma_cx_c+\beta_c yc=γcxc