【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01

本文探讨了在视频目标检测中,通过提案级的空间-时间上下文聚合来改进特征融合的方法。针对光流估计误差和帧间时间一致性的局限性,提出使用自注意力机制,结合提案的时空语义信息和位置信息来计算聚合权重。实验结果表明这种方法能有效提高检测性能。
摘要由CSDN通过智能技术生成

随着ImageNet VID数据集的提出,专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分,例如DFF FGFA等。。 但是这些方法大部分是基于光流在帧级对特征的逐像素聚合,这种方式有以下一些限制:

  1. 实验证明当物体运动速度越快时,光流估计也越差,这与我们引入视频处理的初衷相悖。
  2. 这些方法都只关注于利用相邻帧之间的时间一致性,但是忽略了proposal间的时间和空间位置的关联。
  3. 之前的方法只聚合关键帧附近的一些帧,忽略了长时间的时空信息。

以下两种方法关注在proposal级聚合特征,避免了帧级聚合的缺点。

1 Object Detection in Video with Spatial-temporal Context Aggregation

文章链接:https://arxiv.org/abs/1907.04988v1

方法

思想:通过自注意力机制,计算帧间和帧内的proposal的聚合权重,这里聚合权重考虑了proposal之间的时空语义信息,位置信息。

对于两个关键帧 F k = { F t − τ , F t + τ } F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\} Fk={ Ftτ,Ft+τ}和一个支持帧 F s = { F t } F_{s}=\left\{F_{t}\right\} Fs={ Ft},目标是将支持帧中的上述信息聚合到关键帧中。具体而言,每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征, f k i \mathbf{f}_{k}^{i} fki and f s i ∈ R 1 × d v \mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}} fsiR1×dv,目标是将支持帧中所有proposal特征( { f t j } j = 1 N \left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N} { ftj}j=1N)的时空语义信息和位置信息和关键帧自己所有proposal特征( { f t − τ j } j = 1 N \left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N} { ftτj}j=1N { f t + τ j } j = 1 N \left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N} { ft+τj}j=1N)的位置信息聚合到关键帧的每个proposal( f t − τ i \mathbf{f}_{t-\tau}^{i} ftτi f t + τ i \mathbf{f}_{t+\tau}^{i} ft+τi)中,其中 N N N为每个帧的proposal数。

具体如下图。下图中用到了两次聚合,stage one将支持帧中的proposal聚合到了关键帧,第二次将每个关键帧的proposal聚合到另一个关键帧。
在这里插入图片描述
下面来看如何聚合特征的不同信息。
注:为了简便,以下说明都是以将支持帧 F t F_{t} F<

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值