【每周论文阅读-第五周】01 MANet:Fully Motion-Aware Network for Video Object Detectio

MANet: Fully Motion-Aware Network for Video Object Detection

文章链接:http://openaccess.thecvf.com/content_ECCV_2018/papers/Shiyao_Wang_Fully_Motion-Aware_Network_ECCV_2018_paper.pdf
来源:ECCV 2018

在视频目标检测中,常用光流来估计前后帧的运动,并将其作为不同帧特征校准的参照,但是有些工作通过实验已经证明在帧间信息变化较快时(特别是目标被遮挡时),光流估计会失准。本文通过将实例级的特征校准与原来像素级的像素级特征校准(光流传播)结合用来准确的估计目标的运动变化。并且作者观察到像素级的特征校准对于目标的非刚性变化(例如,动物的姿态变化)效果很好,而实例级的特征校准对目标的刚性变化(例如,汽车的位移)效果很好,并且实例级特征校准对视频中的目标遮挡更加鲁棒。

方法

作者将推出的方法分为三部分:像素级特征校准,实例级特征校准,如何结合两种方法实现完全的运动估计
先上图
在这里插入图片描述

1 像素级校准

像素级校准就是通过对当前帧和相邻帧之间的运动估计,将相邻帧的特征聚合到当前帧,进一步优化当前帧的检测结果。具体而言对于当前帧 I t \boldsymbol{I}_{t} It,和其相邻帧 I t − τ \boldsymbol{I}_{t-\tau} Itτ(或是 I t + τ \boldsymbol{I}_{t+\tau} It+τ),通过特征提取器 N f e a t \mathcal{N}_{f e a t} Nfeat得到特征 f t − τ , f t \boldsymbol{f}_{t-\tau}, \boldsymbol{f}_{t} ftτ,ft,我们想要将 f t − τ \boldsymbol{f}_{t-\tau} ftτ聚合到 f t \boldsymbol{f}_{t} ft中:

  1. 通过FlowNet估计从 I t \boldsymbol{I}_{t} It I t − τ \boldsymbol{I}_{t-\tau} Itτ的光流场 F ( I t − τ , I t ) \mathcal{F}\left(\boldsymbol{I}_{t-\tau}, \boldsymbol{I}_{t}\right) F(Itτ,It)

  2. 将光流场作为参照将 f t − τ \boldsymbol{f}_{t-\tau} ftτ f t \boldsymbol{f}_{t} ft对齐,对于当前帧的某一位置 p \boldsymbol{p} p通过光流场可以得到其相对于相邻帧的位置变化 Δ p \Delta p Δp,现在我们得到了当前帧 p \boldsymbol{p} p位置在相邻帧上的位置映射 p + Δ p \boldsymbol{p}+\Delta \boldsymbol{p} p+Δp。之后用双线性插值 G ( ⋅ ) G(\cdot) G() f t − τ \boldsymbol{f}_{t-\tau} ftτ对齐到 f t − τ → t \boldsymbol{f}_{t-\tau \rightarrow t} ftτt ,如下式。

    Δ p = F ( I t − τ , I t ) ( p ) f t − τ → t ( p ) = ∑ q G ( q , p + Δ p ) f t − τ ( q ) \begin{aligned} \Delta \boldsymbol{p} &=\mathcal{F}\left(\boldsymbol{I}_{t-\tau}, \boldsymbol{I}_{t}\right)(\boldsymbol{p}) \\ \boldsymbol{f}_{t-\tau \rightarrow t}(\boldsymbol{p}) &=\sum_{\boldsymbol{q}} G(\boldsymbol{q}, \boldsymbol{p}+\Delta \boldsymbol{p}) \boldsymbol{f}_{t-\tau}(\boldsymbol{q}) \end{aligned} Δpftτt(p)=F(Itτ,It)(p)=qG(q,p+Δp)ftτ(q)
    G ( q , p + Δ p ) = max ⁡ ( 0 , 1 − ∥ q − ( p + Δ p ) ∥ ) G(\boldsymbol{q}, \boldsymbol{p}+\Delta \boldsymbol{p})=\max (0,1-\|\boldsymbol{q}-(\boldsymbol{p}+\Delta \boldsymbol{p})\|) G(q,p+Δp)=max(0,1q(p+Δp))

  3. 然后我们将当前帧的特征和相邻帧对齐后的特征聚合,与之前光流估计方法不同这里直接求各个特征的均值。
    f

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值