Low-Latency Video Semantic Segmentation (CVPR 2018)
本文目标任务:视频语义分割,论文地址
原创文章, 不可转载!!
同样从[1]改进而来,仍然采取key frame和current frame的思路,主要思路为比较两帧的底层特征的差异,若差异较大,则按部就班地产生最后的结果;若差异较小,则采取一种创新性的方法根据关键帧的top feature和两帧底层特征的差异产生当前帧的top feature,最后得到分割结果,流程如下:
创新点:
- 关键帧的选取策略,与[2]相似,取两帧特征的差值作为输入,最后输出结果,不过[2]中针对这一结果进行了训练,而这里没有。
- Adaptive Feature Propagation,本文的主要创新点。[1][2]都是使用光流根据函数W产生结果,而本文是将关键帧的top feature经过一个卷积核(文中称它为spatially variant convolution. )的运算来生成当前帧的top feature。而卷积核的参数是由两帧的底层特征卷积运算而来,如下图
- Low-Latency Scheduling(just a trick, please read paper!)
实验结果(仅列出cityscape上结果):比同期的[2]效果好,可能和baseline的选取也有关。
Propagation方法比较
关键帧选取策略的比较
Inference时间分析
具体效果图见论文
[1] Deep feature flow for video recognition
[2] Dynamic Video Segmentation Network