Flow-Guided Feature Aggregation for Video Object Detection-ICCV 2017

原创 2018年04月15日 21:15:52

Flow-Guided Feature Aggregation for Video Object Detection

从题目看到Feature Aggregation,就知道这篇工作是提高特征的表征能力的。在之前的DFF(deep feature flow)工作的基础上,作者进一步地对视频的每一帧特征做了aggregation的操作,在ImageNet VID 的比赛上,几乎都用到了这种方法。

Video Object Detection

box method: 这里指的是香港中文大学用tubulet 方法对video object 做box track的方法,那里面的算法很复杂,有空再总结。

video object detection 里面的存在的问题:(Image VID dataset里面的图片)


这时如果用单帧的图像检测器直接做的话就是在其他帧检测不准,因为没有充分地考虑temporal的信息,同一物体姿态多变,或者相机的运动导致的运动模糊,都会导致这种问题,但如果我们不是简单地关注当前帧而是关注前几帧和后几帧,就会识别正确,所以让model去学会适应temporal feature是这篇工作的核心。

Frame work


​ 大致想法是在计算每一帧的时候(当前帧),把每一帧都当中关键帧,然后把临近帧的feature map通过DFF的方法warp到当前帧,然后计算帧与帧之间similarity,在做feature map 的aggregation(加权求和)。

Inference


Notation和上述DFF一样,问题是如何去求解这个weights?

作者是用了embedding 的思想,每个feature map 计算similarity的时候先用一个小的CNN把这个feature map 映射到一个小的feature space,然后就用简单点积除以模的形式就是weight(最后再做一次归一化),简单的一句话就是把结果取softmax。

Experiment

1, 作者采用的R-FCN,也是Dai Jifeng的工作,很强大的检测器。

2,Feature network 和DFF一样用的resnet101, flow netwo用的是flownet-s

3,Embedding network是3层CNN,最后一层的输出为2048维度

4,为了便于分析,作者根据物体运动的快慢把VID dataset 划分成了slow,medium,fast motion的形式。(指标是帧和帧之间boxes的iou,iou越小说明物体运动的越快)


5,首先可以看出算法在对slow,fast物体都能兼顾。


并且对不同速度物体的weights进行了可视化,横坐标代表相对于当前帧的偏移量。

6,又是一大波实验




结果

从下图可以看出,这个算法框架却是很work

最终的结果是state of art 的(当时)


不足:

1,每一帧都是key frame,计算量会增加很多,虽然用DFF加速,但是比起单帧做还是速度慢一点。

2,仍然需要去计算光流,额外的信息作为指导。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lxt1994/article/details/79953401

视频目标检测--Flow-Guided Feature Aggregation for Video Object Detection

Flow-Guided Feature Aggregation for Video Object Detection https://arxiv.org/abs/1703.10025 Our fr...
  • zhangjunhit
  • zhangjunhit
  • 2017-08-04 14:51:21
  • 2050

视频检测分割--Deep Feature Flow for Video Recognition

Deep Feature Flow for Video Recognition CVPR2017 Code: https://github.com/msracver/Deep-Feature-Fl...
  • zhangjunhit
  • zhangjunhit
  • 2017-08-04 10:23:20
  • 2020

【论文笔记】视频物体检测(VID)系列 FGFA:Flow-Guided Feature Aggregation for Video Object Detection

1.Abstract视频中的物体检测会受到诸如运动模糊、视频散焦、奇特姿态等的影响。现有的工作尝试从box-level使用temporal信息,但是这种方法不能端到端地进行训练。我们提出了FGFA,在...
  • elaine_bao
  • elaine_bao
  • 2017-11-05 21:02:52
  • 753

解读flow-guided feature aggregation for video object detection

文章主要贡献点: Flow-guided feature aggregation, an end-to-end framework for video object detection. Impro...
  • yihaizhiyan
  • yihaizhiyan
  • 2017-11-30 20:03:49
  • 123

Object Detection清单

HOMECATEGORIESARCHIVESLINKSSEARCHABOUT MEObject Detection Published: 09 Oct 2015  Category: deep_lea...
  • lien0906
  • lien0906
  • 2018-03-20 14:25:40
  • 183

视频物体检测文献阅读笔记

Impression Network for Video Object Detection 基于印象机制的高效多帧特征融合,解决defocus and motion blur等问题(即视频中某帧的...
  • Wayne2019
  • Wayne2019
  • 2018-01-06 11:03:39
  • 523

Path Aggregation Network for Instance Segmentation解读

本篇论文是COCO 2017 instance segmentation的冠军,读了这篇论文再加上之前读论文的体会,和朱神交流后得到一个感悟: 同样一个work的小改动,你不能挖的深或者看得很浅...
  • u013010889
  • u013010889
  • 2018-03-08 16:32:38
  • 692

视频物体分割--One-Shot Video Object Segmentation 2017年cvpr

One-Shot Video Object Segmentation CVPR2017 http://www.vision.ee.ethz.ch/~cvlsegmentation/osvos/...
  • m0_37407756
  • m0_37407756
  • 2017-10-12 16:18:47
  • 546

人脸识别“Neural Aggregation Network for Video Face Recognition”

人脸识别的新方法,主要对视频进行处理,使用CNN提取视频中多帧人像的特征,之后使用聚合模块对所有帧的特征向量进行学习累积,实验结果表明这种方法比手工设计的方法如平均池化要好。人脸识别结构如下图所示:视...
  • cv_family_z
  • cv_family_z
  • 2016-03-28 14:25:15
  • 2624

NAN论文解读:Neural Aggregation Network for Video Face Recognition

Neural Aggregation Network for Video Face Recognition是CVPR2017的一篇论文,来源https://arxiv.org/abs/1603.054...
  • fuwenyan
  • fuwenyan
  • 2017-07-25 15:43:02
  • 772
收藏助手
不良信息举报
您举报文章:Flow-Guided Feature Aggregation for Video Object Detection-ICCV 2017
举报原因:
原因补充:

(最多只允许输入30个字)