Towards High Performance Video Object Detection -CVPR 2018

最新推荐文章于 2023-10-08 10:02:04 发布

lxt_bupt

最新推荐文章于 2023-10-08 10:02:04 发布

阅读量3.4k

点赞数 2

分类专栏： ComputerVision

本文链接：https://blog.csdn.net/lxt1994/article/details/79953952

版权

ComputerVision 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Towards High Performance Video Object Detection

接着上面的工作（DFF，FGFA），这里在abstract中写的很霸气，直接说了基于之前的工作，提出三种不同的方法来提高检测的速度和精度。

Method

直接上图来解释他们的工作，其中a代表DFF（deep feature flow），b 代表FGFA（flow guided feature aggregation) 。右侧代表他们提出的3种不同的方法。

c1 Sparsely Recursive Feature Aggregation

之前FGFA的aggregation是很dense的，所以计算量很大，这里他提出对于key frame而言，不做dense的aggregation而是做那种递归式地从前到后进行，这样大大减少了计算量，相当于两帧之间做aggregation，后面的帧会考虑前面所有帧的历史信息。

c2 Spatiallyadaptive Partial Feature Updating

这里是文章的亮点，partially update feature代表对于不同区域，采用不同的策略，warp或者做cnn 提取特征，那么如何确定那个点是用warp还是用cnn呢？作者用了一个a sibling branch on the flow network，它的输出是一个mask（记为Q），1代表warp，0代表用CNN，（1和0 的确定是作者自己设置的一个阈值，让这个网络去学习，相当于这个网络的作用就是隐式地对帧和帧之间点的运动大小做prediction）。

这里还没做完，因为feature matters，对于每个非关键帧，也会采用c1的做法，从前向后递归地进行aggregation。

注意在实现的时候他是逐层实现。mask算出来后（光流分支），在计算n层特征时用n-1层计算结果，计算n-1层用n-2（如此递归进行），mask大小根据feature map的大小逐渐调整，这样相当于对于一些点（非key frame）不用进行计算，否则你还得从头算n层，尤其对于一些图完全可以warp的，尤其是那种场景变化很小的图。

c3 Temporallyadaptive Key Frame Scheduling

之前的mask每个点代表运动变化程度，那么它们的求和就代表整个图像的appearance变化的大小，所以这里用了一个很简单的策略来进行key frame 的选择，就直接设置一个阈值，大于这个阈值就是key frame，小于就不是。为了证明这个策略，作者还做了如下实验：

可以看到内容变化大的会超过阈值。

这个 trainning framework可以说是相当复杂了。

结果

自然是state of art

note：1，作者还做了大量对比实验。

2，Key Frame 选择是至关重要的。

lxt_bupt

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
10
评论
Towards High Performance Video Object Detection -CVPR 2018

Towards High Performance Video Object Detection接着上面的工作（DFF，FGFA），这里在abstract中写的很霸气，直接说了基于之前的工作，提出三种不同的方法来提高检测的速度和精度。Method直接上图来解释他们的工作，其中a代表DFF（deep feature flow），b 代表FGFA（flow guided feature aggregat...
复制链接

扫一扫

专栏目录