MANet: Fully Motion-Aware Network for Video Object Detection
文章链接:http://openaccess.thecvf.com/content_ECCV_2018/papers/Shiyao_Wang_Fully_Motion-Aware_Network_ECCV_2018_paper.pdf
来源:ECCV 2018
在视频目标检测中,常用光流来估计前后帧的运动,并将其作为不同帧特征校准的参照,但是有些工作通过实验已经证明在帧间信息变化较快时(特别是目标被遮挡时),光流估计会失准。本文通过将实例级的特征校准与原来像素级的像素级特征校准(光流传播)结合用来准确的估计目标的运动变化。并且作者观察到像素级的特征校准对于目标的非刚性变化(例如,动物的姿态变化)效果很好,而实例级的特征校准对目标的刚性变化(例如,汽车的位移)效果很好,并且实例级特征校准对视频中的目标遮挡更加鲁棒。
方法
作者将推出的方法分为三部分:像素级特征校准,实例级特征校准,如何结合两种方法实现完全的运动估计
先上图
1 像素级校准
像素级校准就是通过对当前帧和相邻帧之间的运动估计,将相邻帧的特征聚合到当前帧,进一步优化当前帧的检测结果。具体而言对于当前帧 I t \boldsymbol{I}_{t} It,和其相邻帧 I t − τ \boldsymbol{I}_{t-\tau} It−τ(或是 I t + τ \boldsymbol{I}_{t+\tau} It+τ),通过特征提取器 N f e a t \mathcal{N}_{f e a t} Nfeat得到特征 f t − τ , f t \boldsymbol{f}_{t-\tau}, \boldsymbol{f}_{t} ft−τ,ft,我们想要将 f t − τ \boldsymbol{f}_{t-\tau} ft−τ聚合到 f t \boldsymbol{f}_{t} ft中:
-
通过FlowNet估计从 I t \boldsymbol{I}_{t} It到 I t − τ \boldsymbol{I}_{t-\tau} It−τ的光流场 F ( I t − τ , I t ) \mathcal{F}\left(\boldsymbol{I}_{t-\tau}, \boldsymbol{I}_{t}\right) F(It−τ,It)。
-
将光流场作为参照将 f t − τ \boldsymbol{f}_{t-\tau} ft−τ与 f t \boldsymbol{f}_{t} ft对齐,对于当前帧的某一位置 p \boldsymbol{p} p通过光流场可以得到其相对于相邻帧的位置变化 Δ p \Delta p Δp,现在我们得到了当前帧 p \boldsymbol{p} p位置在相邻帧上的位置映射 p + Δ p \boldsymbol{p}+\Delta \boldsymbol{p} p+Δp。之后用双线性插值 G ( ⋅ ) G(\cdot) G(⋅) 将 f t − τ \boldsymbol{f}_{t-\tau} ft−τ对齐到 f t − τ → t \boldsymbol{f}_{t-\tau \rightarrow t} ft−τ→t ,如下式。
Δ p = F ( I t − τ , I t ) ( p ) f t − τ → t ( p ) = ∑ q G ( q , p + Δ p ) f t − τ ( q ) \begin{aligned} \Delta \boldsymbol{p} &=\mathcal{F}\left(\boldsymbol{I}_{t-\tau}, \boldsymbol{I}_{t}\right)(\boldsymbol{p}) \\ \boldsymbol{f}_{t-\tau \rightarrow t}(\boldsymbol{p}) &=\sum_{\boldsymbol{q}} G(\boldsymbol{q}, \boldsymbol{p}+\Delta \boldsymbol{p}) \boldsymbol{f}_{t-\tau}(\boldsymbol{q}) \end{aligned} Δpft−τ→t(p)=F(It−τ,It)(p)=q∑G(q,p+Δp)ft−τ(q)
G ( q , p + Δ p ) = max ( 0 , 1 − ∥ q − ( p + Δ p ) ∥ ) G(\boldsymbol{q}, \boldsymbol{p}+\Delta \boldsymbol{p})=\max (0,1-\|\boldsymbol{q}-(\boldsymbol{p}+\Delta \boldsymbol{p})\|) G(q,p+Δp)=max(0,1−∥q−(p+Δp)∥) -
然后我们将当前帧的特征和相邻帧对齐后的特征聚合,与之前光流估计方法不同这里直接求各个特征的均值。
f