CVPR(spotlight)-2017-11-msra-Towards High Performance Video Object Detection-论文阅读笔记

最新推荐文章于 2024-08-12 09:02:35 发布

华山汉灵

最新推荐文章于 2024-08-12 09:02:35 发布

阅读量359

点赞数 1

分类专栏：算法-深度学习-目标检测

本文链接：https://blog.csdn.net/Meihuashan_HUST/article/details/84501952

版权

算法-深度学习-目标检测专栏收录该内容

9 篇文章 0 订阅

订阅专栏

原文：https://arxiv.org/abs/1711.11577
摘要：
图像目标检测已经取得了巨大的进步，但是视频目标检测关注度要低一些，其实他挑战性和实用性更高一些。基于之前的Deep Feature Flow和Flow-guided Feature Aggregation for Video Object Detection，本文在三个方面进行了改进，提高了模型的精度和速度。

引言
将图像目标检测直接应用到视频上，除了上一篇博文提到的问题还有视频中临近帧包含大量的冗余信息，影响了检测速度。在Deep Feature Flow中使用光流提高了检测速度，在FGFA中通过特征集成提高了精度，这两个工作是我们2017年赢得VID比赛的基础。然而，DFF通过光流估计特征图会带来误差，影响精度，在FGFA中光流导向集成特征会大幅度拖慢速度。所以两者是互补的。
本文提出三点改进，进一步提高了系统的精度和速度。第一，稀疏递归的特征集成用来获得高质量的特征图，同时只在关键帧上操作减少了计算量。第二，当非关键帧部分特征恶化时，部分特征重计算用来更新特征图。特征质量通过模型学习，可以端到端训练，提高识别精度。第三，自适应的关键帧调度策略代替了原来的固定的关键帧，通过上面的特征质量评估来确定要不要更新关键帧，使得关键帧的使用更高效。
最终获得77.8的分数，相比FGFA提高了些许，重要的是在提高的同时，可以做到70ms处理时间（K40 GPU），相比同工况的FGFA的700ms有数量级的提升。
两个基础工作回顾
稀疏特征传递
DFF的动机在于，帧间相似性较强，计算得到的特征图也相似，所以没必要再计算特征图，用光流估计映射关系，直接进行特征变换就可以。
W为双线性插值函数，M为光流估计得到的i->k帧的运动
使用FlowNet相比直接提取特征能得到近10倍的加速，只有较小的精度损失。
FGFA的动机在于，运动模糊、散焦和外观变化带来的特征图的恶化。具体的细节可以参见上一篇博客。基本公式如下

最终比单帧性能提升4个百分点，尤其在快速目标上有显著提升，但是由于光流的密集计算，使得速度降低了三倍。
高性能的视频目标检测
通过上面两个工作，我们可以得出结论，运动估计模块是必不可少的，端到端的训练对检测精度比较重要。基于以上基本结论，本文提出了高性能的视频目标检测框架。在3.1节中结合了前两个工作，使得模型又快又好。在3.2节中，自适应的思想从时间维扩展到空间维，进行空间自适应的特征图计算。在3,3节使用自适应的特征图调度策略。这些想法都比较自然，是之前工作的扩展。整个改进如figure 1所示
3.1 稀疏递归的特征图集成
FGFA的光流是有大量重复计算的，考虑相邻两帧i,i+1，在对i帧进行特征集成的时候，需要计算M(i+1,i)，在对i+1帧进行特征集成的时候，需要计算M(i,i+1)。两帧的计算是几乎重复的，只是交换了送入光流网络的位置。而且选取较大的K(=10)去集成，需要计算2K+1的特征和光流，计算量较大。对此提出稀疏递归的特征图集成，稀疏是因为只计算关键帧的特征图，递归是指，不再进行前后K帧的集成，而是递归的过程，从前往后累计集成关键帧。

在这里插入图片描述
这里的Fk-为前面传过来的集成后的特征图，Fk-为本帧集成后的特征图，Fk为本帧特征提取网络提取的特征图，W为权重由权重网络计算得到，具体可见上一篇博文（FGFA）
3.2 空间自适应的特征图更新
虽然非关键帧使用关键帧特征映射可以加速，但是，由于目标的外观的变化，仍有一些误差。为了评估传播的特征图是否是i的一个好的近似，本文在光流网络的输出端加一个分支Q，表征同一位置特征的相似程度。
在这里插入图片描述
如果p处的相似性Q§<T，说明传播的特征不相似，建议用真正的特征去更新。本文提出对非关键帧的部分特征更新方法。

但是，这里存在的问题是，这样岂不是要计算非关键帧特征，如果也要计算，那就不存在什么关键与非关键帧的说法了。这里提到经济的非关键帧，一层一层更新的方法，但是没看太懂。
3.3 时间自适应的关键帧调度
基于上面非关键帧特征的部分更新，不难想到一种基于相似度的关键帧调度方式
在这里插入图片描述
如果相似性少于T的全图像素的占比大于一定阈值，我们认为需要整个集成图像更新，那么将这一帧的图像特征计算，添加到集成特征图上。Q(k->i)<T意味着，发生了外观变化，或者较大的运动使得传播特征图不能表征当前帧的特征。如Figure2所示
在这里插入图片描述
上图中，三个橙色颜色的图像是低相似性占比较高。可以看出与相邻帧比较发生了较大变化。为了探索关键帧调度这个问题的上界，本文将每一帧分别作为关键帧或者非关键帧，得到不同的检测结果，然后和ground truth比较计算mAP，选取较优的选择，这样统计最终检测结果为80.9相比本文关键帧调度的78的分数仍高出两个点，说明关键帧调度策略是需要考虑的关键的因素。
3.4 整体视角
公式6虽然只是对非关键帧定义的，但是如果是关键帧，Q值会很低趋向于负无穷，那么每个位置都要更新，这也就是整个图像重新计算特征图，也就是关键帧了。
这里T=0，gamma=0.2，从Table 1中可以看出这是一个统一的框架，通过不同的选项，来选择每个方面的不同的处理方式。c3是本文最新提出的方法
在这里插入图片描述
在训练的时候，由于内存的限制，本文随机选择相邻的两帧，第一帧作为关键帧，下一帧作为非关键帧，我们记做Ik和Ii。我们对Ik提取特征，然后Ik与Ii输入光流估计运动Mi->k，及特征相似性指数Qk->i，然后通过式6部分更新Fi，然后集成特征图得到F`i，个人感觉这里是有问题的，集成的是关键帧而i为非关键帧最后检测网络作用到这个特征图上得到检测结果。同时这里的损失添加了一个正则化项

在这里插入图片描述
这里的正则化项是控制不要更新太多面积的特征图，正则化程度通过lamda控制做到速度和精度的权衡。
3.5 网络结构
这部分与前一篇博文一致
4. 相关工作
一些文献在上一篇博文中提到了，这里主要注意参考文献[8]ICCV 2017 “Detect to track and track to detect”
5. 实验（待整理）
5.1 整体实验
5.2对比实验
5.3和最好的方法的比较