Deep Feature Flow -CVPR 2017

最新推荐文章于 2023-12-04 22:54:20 发布

lxt_bupt

最新推荐文章于 2023-12-04 22:54:20 发布

阅读量3.8k

点赞数 6

分类专栏： ComputerVision ImageSegmentation CV_paper_reading

本文链接：https://blog.csdn.net/lxt1994/article/details/79952310

版权

ComputerVision 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

ImageSegmentation

2 篇文章 0 订阅

订阅专栏

CV_paper_reading

1 篇文章 1 订阅

订阅专栏

Video Detection and Segmentation

这是一篇很有想法（novel）的工作，尤其是在video领域，作者是来自MSRA的Xizhou Zhu 和DaiJifeng，他们的一系列工作我将在本博客中给予更多介绍，这次介绍的是他们的工作：deep feature flow

Deep Feature Flow

Deep feature flow 正如其名，它是用了deep feature （appearance 信息）和光流（motion 信息）来对视频中的每一帧做建模，它的核心思想是利用指定的关键帧（key frame）和其他帧（current frame）到关键帧的光流信息，把关键帧送入到deep CNN中得到deep feature，而对于其他帧算出与关键帧的光流，再用光流把关键帧的deep feature propagate （相加，在做双线性差值）到当前帧，这时候就可大大减少计算量，因为对于非关键帧的话就不用再去过CNN了。对于新得到的特征，接下来就可对其进行不同任务处理，比如分割或者检测。整个思路如下图：

首先看它的Motivation：

作者是通过观察resnet-101 模型 deep feature，发现通过光流把前一帧warp到后一帧，发现和用resnet-101 直接inference很接近，于是就想到这种方法。

Inference：

首先给出它的formal notation（ps：就是为了更加正式，其实想法很简单）

N 代表后续任务网络，分割或者检测，取决于当前的task，N 代表提取特征的网络。

重点是第11行，做propagation。

c代表channel，它是对每个channel做相同的差值（双线性差值，为啥用，是因为这种差值方式是可微的，为了后续的end to end trainning）操作，G代表双线性差值核函数，S代表scale 是用来对key frame feature 和 current frame feature做scale 操作。最后整个式子可以写成 f = W(f, M,S), M代表warp后的feature。

Training

考虑一种情况，为啥不用类似与在video action recognition 任务中方法先把光流计算出来直接做warp呢？作者认为这种作为不适合recognition task，会有很大的variation，个人理解是分割和检测任务不适合这么做，因为相对action recognition，分割和检测的任务是更细粒度的场景理解和目标理解，所以作者使用了flow net作为光流计算， flow net是可以学习，可以自适应不同场景的运动物体建模。他采用的最简单的flow net版本（flow net-S）。

接着作者分析了加速时间，就是可以理解为，warp的时间要远远小于用deep CNN做inference的时间。