随着ImageNet VID数据集的提出,专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分,例如DFF FGFA等。。 但是这些方法大部分是基于光流在帧级对特征的逐像素聚合,这种方式有以下一些限制:
- 实验证明当物体运动速度越快时,光流估计也越差,这与我们引入视频处理的初衷相悖。
- 这些方法都只关注于利用相邻帧之间的时间一致性,但是忽略了proposal间的时间和空间位置的关联。
- 之前的方法只聚合关键帧附近的一些帧,忽略了长时间的时空信息。
以下两种方法关注在proposal级聚合特征,避免了帧级聚合的缺点。
1 Object Detection in Video with Spatial-temporal Context Aggregation
文章链接:https://arxiv.org/abs/1907.04988v1
方法
思想:通过自注意力机制,计算帧间和帧内的proposal的聚合权重,这里聚合权重考虑了proposal之间的时空语义信息,位置信息。
对于两个关键帧 F k = { F t − τ , F t + τ } F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\} Fk={ Ft−τ,Ft+τ}和一个支持帧 F s = { F t } F_{s}=\left\{F_{t}\right\} Fs={ Ft},目标是将支持帧中的上述信息聚合到关键帧中。具体而言,每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征, f k i \mathbf{f}_{k}^{i} fki and f s i ∈ R 1 × d v \mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}} fsi∈R1×dv,目标是将支持帧中所有proposal特征( { f t j } j = 1 N \left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N} { ftj}j=1N)的时空语义信息和位置信息和关键帧自己所有proposal特征( { f t − τ j } j = 1 N \left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N} { ft−τj}j=1N或 { f t + τ j } j = 1 N \left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N} { ft+τj}j=1N)的位置信息聚合到关键帧的每个proposal( f t − τ i \mathbf{f}_{t-\tau}^{i} ft−τi或 f t + τ i \mathbf{f}_{t+\tau}^{i} ft+τi)中,其中 N N N为每个帧的proposal数。
具体如下图。下图中用到了两次聚合,stage one将支持帧中的proposal聚合到了关键帧,第二次将每个关键帧的proposal聚合到另一个关键帧。
下面来看如何聚合特征的不同信息。
注:为了简便,以下说明都是以将支持帧 F t F_{t} F<