【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01

最新推荐文章于 2024-04-18 18:24:46 发布

呆军

最新推荐文章于 2024-04-18 18:24:46 发布

阅读量1k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/m0_38065546/article/details/96710698

版权

本文探讨了在视频目标检测中，通过提案级的空间-时间上下文聚合来改进特征融合的方法。针对光流估计误差和帧间时间一致性的局限性，提出使用自注意力机制，结合提案的时空语义信息和位置信息来计算聚合权重。实验结果表明这种方法能有效提高检测性能。

摘要由CSDN通过智能技术生成

随着ImageNet VID数据集的提出，专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分，例如DFF FGFA等。。但是这些方法大部分是基于光流在帧级对特征的逐像素聚合，这种方式有以下一些限制：

实验证明当物体运动速度越快时，光流估计也越差，这与我们引入视频处理的初衷相悖。
这些方法都只关注于利用相邻帧之间的时间一致性，但是忽略了proposal间的时间和空间位置的关联。
之前的方法只聚合关键帧附近的一些帧，忽略了长时间的时空信息。

以下两种方法关注在proposal级聚合特征，避免了帧级聚合的缺点。

1 Object Detection in Video with Spatial-temporal Context Aggregation

文章链接：https://arxiv.org/abs/1907.04988v1

方法

思想：通过自注意力机制，计算帧间和帧内的proposal的聚合权重，这里聚合权重考虑了proposal之间的时空语义信息，位置信息。

对于两个关键帧 $F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\}$ 和一个支持帧 $F_{s}=\left\{F_{t}\right\}$ ，目标是将支持帧中的上述信息聚合到关键帧中。具体而言，每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征， $\mathbf{f}_{k}^{i}$ and $\mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}}$ ，目标是将支持帧中所有proposal特征（ $\left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N}$ ）的时空语义信息和位置信息和关键帧自己所有proposal特征（ $\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}$ 或 $\left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N}$ ）的位置信息聚合到关键帧的每个proposal( $\mathbf{f}_{t-\tau}^{i}$ 或 $\mathbf{f}_{t+\tau}^{i}$ )中，其中 $N$ 为每个帧的proposal数。