Deep Feature Flow -CVPR 2017

原创 2018年04月15日 20:27:08

Video Detection and Segmentation

这是一篇很有想法(novel)的工作,尤其是在video领域,作者是来自MSRA的Xizhou Zhu 和DaiJifeng,他们的一系列工作我将在本博客中给予更多介绍,这次介绍的是他们的工作:deep feature flow

Deep Feature Flow

Deep feature flow 正如其名,它是用了deep feature (appearance 信息)和 光流(motion 信息)来对视频中的每一帧做建模,它的核心思想是利用指定的关键帧(key frame)和其他帧(current frame)到关键帧的光流信息,把关键帧送入到deep CNN中得到deep feature,而对于其他帧算出与关键帧的光流,再用光流把关键帧的deep feature propagate (相加,在做双线性差值)到当前帧,这时候就可大大减少计算量,因为对于非关键帧的话就不用再去过CNN了。对于新得到的特征,接下来就可对其进行不同任务处理,比如分割或者检测。整个思路如下图:


首先看它的Motivation:


作者是通过观察resnet-101 模型 deep feature,发现通过光流把前一帧warp到后一帧,发现和用resnet-101 直接inference很接近,于是就想到这种方法。

Inference:

首先给出它的formal notation(ps:就是为了更加正式,其实想法很简单)



N 代表后续任务网络,分割或者检测,取决于当前的task,N 代表提取特征的网络。

重点是第11行,做propagation。

c代表channel, 它是对每个channel做相同的差值(双线性差值,为啥用,是因为这种差值方式是可微的,为了后续的end to end trainning)操作,G代表双线性差值核函数,S代表scale 是用来对key frame feature 和 current frame feature做scale 操作。最后整个式子可以写成 f = W(f, M,S), M代表warp后的feature。

Training

考虑一种情况,为啥不用类似与在video action recognition 任务中方法先把光流计算出来直接做warp呢?作者认为这种作为不适合recognition task,会有很大的variation,个人理解是分割和检测任务不适合这么做,因为相对action recognition,分割和检测的任务是更细粒度的场景理解和目标理解,所以作者使用了flow net作为光流计算, flow net是可以学习,可以自适应不同场景的运动物体建模。他采用的最简单的flow net版本(flow net-S)。

接着作者分析了加速时间,就是可以理解为,warp的时间要远远小于用deep CNN做inference的时间。

不足

1,很明显一点就是key frame的选择,作者这里用了固定的策略,所以今年CVPR2018有很多文章在key frame选择上提出新方法。

2,feature representation的不足,由于flow warp后的feature会变弱,所以对于非关键帧的地方,效果肯定比单帧做检测或分割效果要差。

实验结果

作者进行了2个任务的实验:

1,Cityscapes (分割)

2,ImageNet VID (视频目标检测)

结果如下:


其中还对比了如下不同的架构: (SFF 算法->一种计算光流的方法,这样可以把光流提前计算好)


代码:

https://github.com/msracver/Deep-Feature-Flow

第一次写论文笔记:多多包涵,不足之处请指出~~


版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lxt1994/article/details/79952310

开源|2017 CVPR(Oral Paper):多目标实时体态估测 项目开源

本目录下的代码赢得了2016年MSCOCO关键点挑战赛以及2016年ECCV最佳演示奖,并发表在2017年CVPR的口头论文(Oral Paper)中。   演示视频:      在...
  • AMDS123
  • AMDS123
  • 2017-03-22 12:43:06
  • 8418

CVPR2017-最新目标检测相关

(1)Speed/accuracy trade-offs for modern convolutional object detectors 其主要考虑三种检测器(Faster RCNN,R-F...
  • xunan003
  • xunan003
  • 2017-10-14 17:23:26
  • 868

CVPR—2017会议全套视频下载地址分享

CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。 该会议是由IEEE举办...
  • lqfarmer
  • lqfarmer
  • 2017-08-06 15:56:40
  • 1244

视频检测分割--Deep Feature Flow for Video Recognition

Deep Feature Flow for Video Recognition CVPR2017 Code: https://github.com/msracver/Deep-Feature-Fl...
  • zhangjunhit
  • zhangjunhit
  • 2017-08-04 10:23:20
  • 2021

Depth estimation/stereo matching/optical flow @CVPR 2017

Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation (PDF)     Dan...
  • AndreLeon
  • AndreLeon
  • 2017-07-03 09:59:09
  • 1295

CVPR2017论文和ICCV2017论文下载地址

CVPR2017paper下载地址:http://openaccess.thecvf.com/CVPR2017.pyICCV2017paper下载地址:http://openaccess.thecvf...
  • weixin_40294256
  • weixin_40294256
  • 2018-03-19 09:22:51
  • 86

CVPR2017 总结 深度学习

本文为CVPR2017的总结,作者为来自cynced公司的Qintong Wu 等。The 2017 Conference on Computer Vision and Pattern Recogni...
  • likejoey
  • likejoey
  • 2018-03-08 07:27:20
  • 160

Deep Feature Flow for Video Recognition读书笔记

摘要:本文主要提出了一个深度特征流算法,用于视频的识别。它仅在稀疏的关键帧上运行计算量极大的卷积子网络,并通过流场将它们的深度特征图传输到其他帧。由于流计算方法相对较快,所以算法得到了明显的加速。整个...
  • u010213183
  • u010213183
  • 2017-06-05 08:46:57
  • 1680

CVPR 2017-01-26

[1] arXiv:1701.07398 [pdf, other] Learning an attention model in an artificial visual system 在人工视...
  • u011171235
  • u011171235
  • 2017-01-28 11:42:21
  • 746

解读flow-guided feature aggregation for video object detection

文章主要贡献点: Flow-guided feature aggregation, an end-to-end framework for video object detection. Impro...
  • yihaizhiyan
  • yihaizhiyan
  • 2017-11-30 20:03:49
  • 126
收藏助手
不良信息举报
您举报文章:Deep Feature Flow -CVPR 2017
举报原因:
原因补充:

(最多只允许输入30个字)