基于三端卷积网络的在线视频目标分割
针对半监督视频目标分割任务,作者采取了和MaskTrace类似的思路,以光流为主。 本文亮点在于: 1.使用共享主干,三输出的自编码器。 2.对一些视频中确定性像素建模,分割前后景。 3.对被遮挡又重新出现的物体使用前后景GMMs损失建模识别,增加正确率。 |
Abstract
本文提出了一种半监督的在线视频对象分割算法,该算法接受用户在第一帧处对目标对象的注释。我们使用光流向量将前一帧的分割标签传播到当前帧。 但是,传播很容易出错。 因此,我们开发了卷积三叉网络(CTN),其具有三个解码分支:分离的,确定的前景和确定的背景解码器。 然后,我们根据三个解码器的输出执行马尔科夫随机场优化。 我们从第二帧到最后一帧依次执行这些过程,以提取目标对象的片段轨迹。实验结果表明,所提出的算法明显优于DAVIS基准数据集上的最新传统算法。
Proposed Algorithm
算法流程如下:
1.首先输入当前帧t和前一帧t-1的分割掩模,前一帧的分割掩模在optcal flow的指导下预测出t帧的大致样子。
2.同时对t帧和传播后的掩码进行裁剪截取路径。经过前景后景抽取的掩码和裁剪后的 t 帧输入到网络得到三张概率图。
3.对概率图进行MRF优化得到第t帧的分割效果。
Propagation of Segmentation Labels
对于像素点p = [x,y] T,从I (t-1)到I (t)的标签传播为:
其中S (t-1)为前一帧的分割标签图。[u,v]为I (t)到I (t-1)的后向光流矢量。
Inference via Convolutional Trident Network
编码结构采用VGG-16,224x224x3为输入,由13个卷积层,3个全链接层和5个池化层组成。
分割概率需要精准风格边界,所以需要快捷结构获取低层特征信息。确定性前景或后景只判断最可能确定的像素点,所以不需要细节信息。前景后景的输入大小调整到14×14和VGG输出对齐,因为只是估计确定性像素点,所以相当于低通滤波的大小调整可以这么设计。卷积层加BN + RELU。
Train Strategy
介绍完网络结构,接下来要说怎么训练,因为原始数据集一般都只带有标签掩码。
给定输入图片(a)中,根据边距进行裁剪,与图片的形状大小成正比。然后对掩模降质(降解),对掩蔽区域填充[0.5)的随机强度,然后遮盖部分或圆形噪声点(e)。对降质后的图片进行高斯smoothing和阈值化得到两个Ground truth。
推理阶段,截取图片和传播后的ħ输入网络,H需要多截取50像素点然后调整大小。
Markov Random Field Optimization
优化目标函数:
其中前景后景的作用点在于一元能量函数:
Reappearing Object Detection
如何定义不连续的像素点来检测重新出现的目标,作者定义了像素点的不连续性
假设前一帧的像素点为p_head,当前帧为p,大于某阈值即为不连续。
对第一帧和第(T-1)帧使用前景和后景的的GMM。那么一个属于重新出现部分的不连续点的前景高斯损失就会低于后景高斯损失。高斯损失定义在公式(3 )。
Result
作者又提出了一个快速的版本。
实验结果图:
Conclusions
提出了一种半监督的在线视频对象分割算法。首先,分割标签映射从前一帧传播到当前帧。 然后,CTN产生三个概率图,针对二元标签问题量身定制。 为了描绘目标对象,我们通过采用定制的概率图来执行MRF优化。 实验结果表明,所提出的算法明显优于DAVIS基准数据集[36]中的最新传统算法。