paper: https://arxiv.org/abs/1611.07715
代码: https://github.com/msracver/Deep-Feature-Flow
这篇文章提出了一个结合光流的快速视频目标检测和视频语义分割方法。
文章有三个动机:
1.在视频流的每一帧上用CNN计算特征太慢了。
在目标检测和语义分割任务中,通用的做法是首先将图片送到一个深层卷积网络提取特征,再将特征送入相应的任务网络得到结果。在视频上进行目标检测或者语义分割任务时,如果继续使用单帧图片的方法,将有大量的时间耗在特征提取上面,无法做到实时性。而由于视频的连续性,相邻两帧的feature map其实具有很高相似度,这里作者通过可视化resnet101最后一个卷积层里面的两个卷积核输出的特征来进行了验证。
2.两个相邻帧有相似的feature map
本文提出了深度特征流算法仅在稀疏的关键帧上运行计算量极大的卷积子网络,并通过流场将它们的深度特征图传输到其他帧。方法如下图所示。两个中间特征图分别对应“汽车”和“人”。它们在两个相邻帧上是相似的。从关键帧传播到当前帧之后,传播的特征与原始特征相似。