视频目标检测paper带读（一）《Flow-Guided Feature Aggregation for Video Object Detection》

最新推荐文章于 2024-08-12 09:02:35 发布

linlinsss

最新推荐文章于 2024-08-12 09:02:35 发布

阅读量3.7k

点赞数 5

文章标签：目标检测深度学习人工智能视频

本文链接：https://blog.csdn.net/linlinsss/article/details/123401910

版权

【亮点概述】

1.提出了光流引导特征聚合方法

（沿运动路径聚集附近的特征来改进每帧特征，从而提高视频识别精度）

2.一种精确的端到端学习框架

3.对快速移动对象的识别有明显的效果

【introduction】

首先，我们处理的视频中有关于需要识别对象的丰富信息，在短时间内的快照可观察到，并且同一对象的特征通常不会跨帧在空间上对齐。所以，简单的功能聚合甚至可能会降低性能。flow-guided feature aggrega-tion(FGFA)可以有效地利用快速移动对象的各种快照中丰富的外观信息，并且结合了时间信息提高了卷积特征映射的质量。

特征集聚：是指将相似的特征迭代合并到一起，类似于聚类，例如DFF，FGFA等。这些方法大部分是基于光流法在帧级对特征的逐像素聚合建立帧与帧之间的关系，在连续的帧中关联和组装丰富的外观信息，以提高特征表示，进而提高视频识别的准确性。

【基本流程】

特征提取、流估计、特征聚合和检测

1.在视频的各个帧使用特征提取网络，生成每帧的特征图。

2.使用光流网络，计算当前帧和其附近帧之间的光流，将附近帧的特征图根据光流映射到当前帧上。

3.使用自适应加权网络，对各个帧的特征图进行聚合。

4.将聚合特征送入检测网络。

如图，t帧时的图像对猫咪的特征识别并不敏感，而t-10和t+10帧时对猫咪的特征提取识别比较敏感，在经过FPGA后，改进了当前帧的特征图，成功实现了对猫的检测。

【Flow-guided warping模块】

设定当前帧为L(i)，附近帧为L(j)，光流场为，根据光流将附近帧上的特征映射到当前帧上表示为

$\omega (\cdot )$ 为应用在特征图上每个通道的所有位置的映射函数。

【Feature aggregation模块】

在特征映射之后，当前帧从附近帧积累了多个特征图，提供了感兴趣对象的如光照环境、视角、姿势等多种的信息特征，在聚合模块，在不同的空间位置上使用不同的权重，让所有的特征通道共享相同的权重，对于映射的权重表示为 $W(j\rightarrow i)$ ，在当前帧聚合的特征表示为

K为相邻帧的范围(默认为10)，类似于注意模型公式，不同的权重被分配给记忆缓存区中的特征，将获得的特征送入检测网络得到结果为

【Adaptive weight模块】

自适应权重模块表示所有附近缓冲帧对于参考帧的重要程度，如果位置P处的特征映射接近当前帧的特征，它将被赋予一个较大的权重，使用余弦相似度来度量映射的特征和当前帧的相似程度，使用一个小型的全卷积网络，将特征投射测量相似度，通过如下公式得到权重

$f^{e}$ 表示相似性度量的嵌入特征。

【推理算法】

【使用网络】

1.Flow network： FlowNet

2. Feature network：ResNet and Inception-Resnet

3.Embedding network： three layers: a1×1×512 convolution, a3×3×512convolution, and a1×1×2048 convolution

4.Detection network：RPN sub-network and the R-FCN sub-network

【Ablation Study】

从表中可以看出：

1.自适应权重模块的加入极大的提高了对快速运动物体的mPA，慢速和中速物体的变化不大。

2.光流引导模块的加入对三种物体都有明显提高，对快速物体提高的最为明显。

3.端到端训练的重要性

4.简单的功能聚合甚至可能会降低性能。

【额外总结】

方法针对图像的特征级别而不是最终的框级别，考虑时间信息，侧重于提高视频帧中的特征质量和识别精度，输出对象框可以通过之前的框级技术（如后处理）进一步改进。

图中绿色和黄色框分别表示正确和不正确的检测，是FGFA和单帧基线法的对比。