1. Title
论文链接:Flow-based Video Segmentation for Human Head and Shoulders
代码以及数据集链接:https://github.com/kuangzijian/Flow-Based-Video-Segmentation
2. Summary
本文提出的FUNet整体较为简单,主要就是基于PWCNet完成了光流预测,并通过设定阈值的方式,将光流转化为了Motion Feature Mask,该Mask作为辅助信息与原图一起送入一个简单的UNet网络中完成最终的视频分割任务。作者尚未在其他数据集中进行实验和测试,模型泛化能力尚不清楚。
除此之外,本文还提出了一个ConferenceVideoSegmentationDataset用于后续研究。
3. Problem Statement
人体头部以及肩膀部位的视频分割对于视频会议、虚拟现实应用来说是十分重要的,其难点在于如何在存在运动模糊的情况下,实时地对高质量视频进行前背景的分离。
4. Method(s)
为了解决上述问题,本文提出了一个Flow-Based Encoder-Decoder Network(FUNet)。
该网络的整体架构如下图所示:
FUNet首先会对一个视频序列每两帧进行一次光流估计,并通过阈值化的方式将其转换为一个二值图,该二值图即可表征两帧之间的运动信息,随后该运动特征将会与原图进行拼接,送入到一个简单的UNet网络中用于完成最后的分割任务。
4.1 Motion Feature Extraction
本文的光流估计模块主要是基于PWCNet,模型结构见下图。
对于输入的两张图片
I
1
I_1
I1和
I
2
I_2
I2,PWCNet对于每张图片均会生成
L
L
L层的特征金字塔,对于每一层特征,PWCNet将会将
I
2
I_2
I2的特征warp到
I
1
I_1
I1对应层的特征上,然后PWCNet将会构建一个Cost Volume用于存储当前帧和前一帧对应像素之间的Matching Costs,最终PWCNet将会基于上一层上采样后的光流预测结果以及当前层的Cost Volume来预测本层对应的光流。
基于PWCNet,FUNet即可对于一个视频序列预测其对应的光流,为了进一步获取其运动信息,降低噪声干扰,FUNet会基于一个阈值,将光流进行阈值化,对于每一帧都会得到一个Motion Feature Mask。
4.2 Motion and Appearance Fusion
在得到每一帧的Motion Feature Mask后,FUNet会将其与原始帧的RGB图片拼接在一起,然后送入一个简单的UNet网络中用于完成后续的分割任务。
4.3 Dataset
除了提出FUNet以外,本文还提供了一个在线会议形式的绿屏视频数据集,该数据集包含10个视频,一共3600帧图片。
5. Evaluation
作者仅在提出的数据集中完成了评估,评估指标为Dice Coefficient,在测试集上的指标为0.96.
6. Conclusion
本文主要是利用了PWCNet完成了光流估计,并采用阈值化的方法将光流转化为了运动信息,同时还提出了一个ConferenceVideoSegmentationDataset用于后续研究。