CVPR(spotlight)-2017-11-msra-Towards High Performance Video Object Detection-论文阅读笔记

原文:https://arxiv.org/abs/1711.11577
摘要:
图像目标检测已经取得了巨大的进步,但是视频目标检测关注度要低一些,其实他挑战性和实用性更高一些。基于之前的Deep Feature Flow和Flow-guided Feature Aggregation for Video Object Detection,本文在三个方面进行了改进,提高了模型的精度和速度。

  1. 引言
    将图像目标检测直接应用到视频上,除了上一篇博文提到的问题还有视频中临近帧包含大量的冗余信息,影响了检测速度。在Deep Feature Flow中使用光流提高了检测速度,在FGFA中通过特征集成提高了精度,这两个工作是我们2017年赢得VID比赛的基础。然而,DFF通过光流估计特征图会带来误差,影响精度,在FGFA中光流导向集成特征会大幅度拖慢速度。所以两者是互补的。
    本文提出三点改进,进一步提高了系统的精度和速度。第一,稀疏递归的特征集成用来获得高质量的特征图,同时只在关键帧上操作减少了计算量。第二,当非关键帧部分特征恶化时,部分特征重计算用来更新特征图。特征质量通过模型学习,可以端到端训练,提高识别精度。第三,自适应的关键帧调度策略代替了原来的固定的关键帧,通过上面的特征质量评估来确定要不要更新关键帧,使得关键帧的使用更高效。
    最终获得77.8的分数,相比FGFA提高了些许,重要的是在提高的同时,可以做到70ms处理时间(K40 GPU),相比同工况的FGFA的700ms有数量级的提升。
  2. 两个基础工作回顾
    稀疏特征传递
    DFF的动机在于,帧间相似性较强,计算得到的特征图也相似,所以没必要再计算特征图,用光流估计映射关系,直接进行特征变换就可以。 在这里插入图片描述
    W为双线性插值函数,M为光流估计得到的i->k帧的运动
    使用FlowNet相比直接提取特征能得到近10倍的加速,只有较小的精度损失。
    FGFA的动机在于,运动模糊、散焦和外观变化带来的特征图的恶化。具体的细节可以参见上一篇博客。基本公式如下
    在这里插入图片描述
    在这里插入图片描述
    最终比单帧性能提升4个百分点,尤其在快速目标上有显著提升,但是由于光流的密集计算,使得速度降低了三倍。
  3. 高性能的视频目标检测
    通过上面两个工作,我们可以得出结论,运动估计模块是必不可少的,端到端的训练对检测精度比较重要。基于以上基本结论,本文提出了高性能的视频目标检测框架。在3.1节中结合了前两个工作,使得模型又快又好。在3.2节中,自适应的思想从时间维扩展到空间维,进行空间自适应的特征图计算。在3,3节使用自适应的特征图调度策略。这些想法都比较自然,是之前工作的扩展。整个改进如figure 1所示 在这里插入图片描述
    3.1 稀疏递归的特征图集成
    FGFA的光流是有大量重复计算的,考虑相邻两帧i,i+1,在对i帧进行特征集成的时候,需要计算M(i+1,i),在对i+1帧进行特征集成的时候,需要计算M(i,i+1)。两帧的计算是几乎重复的,只是交换了送入光流网络的位置。而且选取较大的K(=10)去集成,需要计算2K+1的特征和光流,计算量较大。对此提出稀疏递归的特征图集成,稀疏是因为只计算关键帧的特征图,递归是指,不再进行前后K帧的集成,而是递归的过程,从前往后累计集成关键帧。

在这里插入图片描述
这里的Fk-为前面传过来的集成后的特征图,Fk-为本帧集成后的特征图,Fk为本帧特征提取网络提取的特征图,W为权重由权重网络计算得到,具体可见上一篇博文(FGFA)
3.2 空间自适应的特征图更新
虽然非关键帧使用关键帧特征映射可以加速,但是,由于目标的外观的变化,仍有一些误差。为了评估传播的特征图是否是i的一个好的近似,本文在光流网络的输出端加一个分支Q,表征同一位置特征的相似程度。
在这里插入图片描述
如果p处的相似性Q§<T,说明传播的特征不相似,建议用真正的特征去更新。本文提出对非关键帧的部分特征更新方法。
在这里插入图片描述
但是,这里存在的问题是,这样岂不是要计算非关键帧特征,如果也要计算,那就不存在什么关键与非关键帧的说法了。这里提到经济的非关键帧,一层一层更新的方法,但是没看太懂。
3.3 时间自适应的关键帧调度
基于上面非关键帧特征的部分更新,不难想到一种基于相似度的关键帧调度方式
在这里插入图片描述
如果相似性少于T的全图像素的占比大于一定阈值,我们认为需要整个集成图像更新,那么将这一帧的图像特征计算,添加到集成特征图上。Q(k->i)<T意味着,发生了外观变化,或者较大的运动使得传播特征图不能表征当前帧的特征。如Figure2所示
在这里插入图片描述
上图中,三个橙色颜色的图像是低相似性占比较高。可以看出与相邻帧比较发生了较大变化。为了探索关键帧调度这个问题的上界,本文将每一帧分别作为关键帧或者非关键帧,得到不同的检测结果,然后和ground truth比较计算mAP,选取较优的选择,这样统计最终检测结果为80.9相比本文关键帧调度的78的分数仍高出两个点,说明关键帧调度策略是需要考虑的关键的因素。
3.4 整体视角
公式6虽然只是对非关键帧定义的,但是如果是关键帧,Q值会很低趋向于负无穷,那么每个位置都要更新,这也就是整个图像重新计算特征图,也就是关键帧了。
这里T=0,gamma=0.2,从Table 1中可以看出这是一个统一的框架,通过不同的选项,来选择每个方面的不同的处理方式。c3是本文最新提出的方法
在这里插入图片描述
在训练的时候,由于内存的限制,本文随机选择相邻的两帧,第一帧作为关键帧,下一帧作为非关键帧,我们记做Ik和Ii。我们对Ik提取特征,然后Ik与Ii输入光流估计运动Mi->k,及特征相似性指数Qk->i,然后通过式6部分更新Fi,然后集成特征图得到F`i,个人感觉这里是有问题的,集成的是关键帧而i为非关键帧最后检测网络作用到这个特征图上得到检测结果。同时这里的损失添加了一个正则化项

在这里插入图片描述
这里的正则化项是控制不要更新太多面积的特征图,正则化程度通过lamda控制做到速度和精度的权衡。
3.5 网络结构
这部分与前一篇博文一致
4. 相关工作
一些文献在上一篇博文中提到了,这里主要注意参考文献[8]ICCV 2017 “Detect to track and track to detect”
5. 实验(待整理)
5.1 整体实验
5.2对比实验
5.3和最好的方法的比较

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值