Fully Motion-Aware Network for Video Object Detection论文笔记

最新推荐文章于 2022-08-25 22:32:03 发布

mornfairy

最新推荐文章于 2022-08-25 22:32:03 发布

阅读量1.6k

点赞数

分类专栏：论文笔记文章标签：深度学习目标检测机器视觉论文笔记

本文链接：https://blog.csdn.net/qq_43378685/article/details/88375295

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

)

Fully Motion-Aware Network for Video Object Detection论文笔记

论文：http://openaccess.thecvf.com/content_ECCV_2018/papers/Shiyao_Wang_Fully_Motion-Aware_Network_ECCV_2018_paper.pdf
代码：https://github.com/wangshy31/MANet_for_Video_Object_Detection

摘要

视频中某些帧外观劣化难以处理，一个典型的解决方法是通过临近帧的聚合来增强当前帧。但是目标和相机的运动，目标的特征通常不是空间校准的，文章中，我们提出的MANET结合了特征的像素级校准和实例级校准。像素级校准应用在运动的细节上，实例级校准捕获了更多全局的运动线索，处理遮挡问题。MANET是第一个联合训练两个模型并且动态结合两种运动形式的算法。在ImageNet大尺度目标视频检测中有领先表现。
在这里插入图片描述

引言

视频的帧经常由于运动模糊或散焦等原因退化，直接想到从时间空间的相关性和临近帧中来获取信息。FAGA尝试时间相关性来从临近帧聚合特征，这是像素级的校准。问题是目标变动剧烈（尤其是遮挡）就不精确。
我们除了像素级校准，还提出了实例级校准，能估计每一个目标随时间的运动方式来精确地聚合特征。相比于像素级校准，实例级校准对较大的时间外观变化更鲁棒。效果见figure1.
而且，两种校准方式能根据不同的运动模式协同工作。像素级适合非刚性变换，尤其是小动物的运动。我们采用了一个运动模式解释模型，如果运动模式更像是非刚性运动而且无遮挡，那最终结果更基于像素级校准。反之，基于实例级校准。以上模型都集成在一个联合框架上可端到端训练。

MANET

在这里插入图片描述

可以从上图看出MANET的流程
1、通过N-feat提取特征，用Flow的方法生成非关键帧的特征。
2、像素级校准
3、实例级校准
4、结合
a图是对于飞机遮挡的情况下两种校准的视频检测效果对比。b图是对于非刚性的运动中两种校准的对比。a图Instace-level表现好，b图Pixel-level表现好

总结

1、通过学习整个物体随时间的运动方式提出实例级特征校准方法。对遮挡情况更鲁棒，由于之前的像素级校准。
2、通过肉眼观察及进行数据实验，我们提出了一个运动模式解释模型动态地结合了像素级和实例级校准，并指出如何结合他们进行端到端训练。
3、证明了在ImageNet大尺度目标视频检测中的极佳效果。并公开代码。