Fully Motion-Aware Network for Video Object Detection论文笔记

)

Fully Motion-Aware Network for Video Object Detection论文笔记

论文:http://openaccess.thecvf.com/content_ECCV_2018/papers/Shiyao_Wang_Fully_Motion-Aware_Network_ECCV_2018_paper.pdf
代码:https://github.com/wangshy31/MANet_for_Video_Object_Detection

摘要

视频中某些帧外观劣化难以处理,一个典型的解决方法是通过临近帧的聚合来增强当前帧。但是目标和相机的运动,目标的特征通常不是空间校准的,文章中,我们提出的MANET结合了特征的像素级校准和实例级校准。像素级校准应用在运动的细节上,实例级校准捕获了更多全局的运动线索,处理遮挡问题。MANET是第一个联合训练两个模型并且动态结合两种运动形式的算法。在ImageNet大尺度目标视频检测中有领先表现。
在这里插入图片描述

引言

视频的帧经常由于运动模糊或散焦等原因退化,直接想到从时间空间的相关性和临近帧中来获取信息。FAGA尝试时间相关性来从临近帧聚合特征,这是像素级的校准。问题是目标变动剧烈(尤其是遮挡)就不精确。
我们除了像素级校准,还提出了实例级校准,能估计每一个目标随时间的运动方式来精确地聚合特征。相比于像素级校准,实例级校准对较大的时间外观变化更鲁棒。效果见figure1.
而且,两种校准方式能根据不同的运动模式协同工作。像素级适合非刚性变换,尤其是小动物的运动。我们采用了一个运动模式解释模型,如果运动模式更像是非刚性运动而且无遮挡,那最终结果更基于像素级校准。反之,基于实例级校准。以上模型都集成在一个联合框架上可端到端训练。

MANET

在这里插入图片描述

  • 可以从上图看出MANET的流程
    1、通过N-feat提取特征,用Flow的方法生成非关键帧的特征。
    2、像素级校准
    3、实例级校准
    4、结合
    在这里插入图片描述a图是对于飞机遮挡的情况下两种校准的视频检测效果对比。b图是对于非刚性的运动中两种校准的对比。a图Instace-level表现好,b图Pixel-level表现好
    在这里插入图片描述

总结

1、通过学习整个物体随时间的运动方式提出实例级特征校准方法。对遮挡情况更鲁棒,由于之前的像素级校准。
2、通过肉眼观察及进行数据实验,我们提出了一个运动模式解释模型动态地结合了像素级和实例级校准,并指出如何结合他们进行端到端训练。
3、证明了在ImageNet大尺度目标视频检测中的极佳效果。并公开代码。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值