Dynamic Video Segmentation Network (CVPR 2018)
本文目标任务: 视频语义分割,论文地址,code
原创文章,不可转载!!!!
从[1]改进而来,仍然采取key frame和current frame的思路,主要思想为将一帧图像划分为4个区域,比较两帧图像对应区域之间的差异,若差异大于阈值,则重新使用segmentation network产生最后的结果;若差异小于阈值,则使用flow network产生光流,然后将光流与关键帧的分割结果通过[1]中的函数W得到当前帧对应区域的分割结果,如下图。
本文的主要改进点有两个,一是采取了关键帧动态选取的策略;二是使用expect confidenc score来定义图像区域见的差异。
在[1]中关键帧的选取是固定时间间隔的选取方式,而本文是当两帧图像对应区域之间Expect Confidenc Score(ECS)低于阈值时,更新关键帧,对比如下图
第二个创新点是本文的主要创新点,ECS是一个经过网络训练所回归出来的一个结果,Decision Network(DN)的输入是flownet的中间层,流程如下。
Ground trut confidence score的计算方式:
下图说明了将图片划分为四个区域的重要性:
实验结果, 阈值控制了acc和fps,使用ECS来更新关键帧很重要
具体效果图见论文
[1] Deep feature flow for video recognition