Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation速读笔记

(一)Title

在这里插入图片描述
前言: 准备开启跟踪的工作了,再不做就毕不了业了,先做文献阅读啦拉啦,欧耶!就是干!
论文地址:https://arxiv.org/abs/2007.02024
代码地址: https://github.com/MasterBin-IIAU/AlphaRefine
关键点:multiple base trackers
最近这篇笔记重新更新了下,可以在这篇博客看到更加详细的介绍

(二) Summary

  • 研究现状及问题:

    最近的trackers采用multiple-stage strategy来改善边界框estimation,这些方法首先粗略地定位目标,然后在随后的阶段中细化初始预测。然而,现有方法的精度仍然有限,不同阶段的coupling严重限制了方法的可移植性.

  • 本文的主要贡献内容:

    提出了Alpha-Refine(AR),用于提升trackers的边界框,获取到尽可能多的空间信息。采用了一个pixel-wise correlation,a corner prediction head以及一个auxiliary mask head作为核心组件。

  • 实验结果:

    在TrackNet,LaSOT,GOT-10K以及VOT2020数据集上进行实验,能够显著提升效果,同时延迟很小。
    使用Alpha-Refine增强的ARSiamRPNpp和ARDiMP50实现了良好的效率和精度的balance

(三) Research Object

为了实现Precise box estimation,有multi-scale search以及sampling-then-regression strategy 做法,但是在精度和性能上都不是很好。目前主流的做法是采用multiple-stage tracking strategy,这种做法在box estimation 上依旧存在着提升空间
现有的跟踪器大多数refinement方法在transferability上很差,因为这个的训练过程和其他的components是组合起来的(这里博主的理解是:整个跟踪过程由多个组件组成,refinement只是其中之一),当refinement模块应用到新的trackers中时需要进行重新训练。但是,本文提出的Alpha-Refine不需要额外训练。即插即用!
在本文中评估了多个特征融合模块以及预测head,并探索出使用一个auxiliary mask head,进行像素级的监督。

(四) Problem Statement

基于IoU-Net以及SiamMask两个网络得到各自的优缺点最终设计的Alpha-Refine。

(五) Method

在这里插入图片描述

  • 采用孪生架构,包含了两个输入分支:分别记作reference branch以及test branch.骨干网络的参数共享,接着将两个分支提取到的特征使用融合模块进行聚集(这里的融合模块通常是一个correlation模块(naive-correlation,depth-wise correlation以及pixel-wise correlation))。
  • 融合之后的特征由一些卷积层进行处理得到prediction head,同时一个auxiliary mask head用来给training过程增加像素级的监督信息,同时也能够输出mask的结果(这里说的是mask的结果能够为prediction的预测提供额外的信息)
  • 可以同任意的trackers以即插即用的方式结合起来
  • Alpha-Refine的搜索空间是待检测目标的两倍,比正常的trackers要小(正常trackers的搜索空间为待检测目标的4倍),较小的搜索空间可以抑制杂乱的背景,使模型能够关注更详细的空间信息
  • 需要一个完整的base tracker

5.1 特征融合

孪生结构融合template特征和search region特征方式通常是通过coarse naive correlation或者depth-wise correlation

然而naive correlation以及depth-wise correlation两种方式将整个template特征作为kernel,来和搜索空间的特征进行相关,这个很容易造成特征图上邻近的滑窗之间会产生相似的响应,造成空间信息的模糊,
在这里插入图片描述
而本文需要尽可能多地维护空间信息。因此,naive correlation和depth-wise correlation两种方式都不适合。
因此,本文中采用的特征融合方式为pixel-wise correlation从而实现高质量的特征表示,template特征记作 K ∈ R C × H 0 × W 0 K \in \mathbb{R}^{C \times H_0 \times W_0} KRC×H0×W0,搜索区域的特征记作 S ∈ R C × H × W S \in \mathbb{R}^{C \times H \times W} SRC×H×W,pixel-wise 相关的方法为:

  • 首先将 K K K分解成 H 0 W 0 H_0 W_0 H0W0个kernel,记作 K j ∈ R C × 1 × 1 K_{j} \in \mathbb{R}^{C \times 1 \times 1} KjRC×1×1
  • 利用 K j K_{j} Kj S S S获取correlation maps得到 C ∈ R H 0 W 0 × H × W C \in \mathbb{R}^{H_{0} W_{0} \times H \times W} CRH0W0×H×W
  • 计算的过程为:
    C = { C j ∣ C j = K j ∗ S } j ∈ { 1 , … , H 0 × W 0 } C=\left\{C_{j} \mid C_{j}=K_{j} * S\right\}_{j \in\left\{1, \ldots, H_{0} \times W_{0}\right\}} C={CjCj=KjS}j{1,,H0×W0}
    其中*表示naive correlation,将 K K K分解的过程将template特征的每一个部分作为kernel,相当于用每一个kernel来编码搜索区域的信息,同时避免空间特征的模糊。

naive correlation,depth-wise correlation, pixel-wise correlation的区别:
在这里插入图片描述
在这里插入图片描述
图4中的( c)表明了原始的卷积只能粗略地表示物体的中心位置,会丢失大部分的形状和比例信息,图4中的(d)需要在特征图通道中编码模糊后的位置信息,这个是不可解释,同时效率较低。图(e)能够很好的保留目标的边界,以及其他的空间信息(感觉这边解释的不是很清楚啊)。

5.2 预测head

在这里插入图片描述
这里探究了3种方式得到的预测边界框:

  • RPN 方式直接回归边界框坐标
  • RCNN方式
  • Cornet Head方式(这种方式是Alpha-Refinement希望的)

这里同时有一个辅助的Mask Head用于实现Precise Bounding Box,这里Mask Head是U-Net结构的,上采样到输入图像的尺寸上。能够帮助模型区分前景和背景,这是分割任务所要求的,同时也有利于跟踪。

(八) Notes

8.1 实现Precise box estimation的方式

  • multi-scale search
  • sampling-then-regression strategy
  • multi-stage tracking strategy(包括了额外的tracking stage)

    关于multi-stage tracking strategy方法说明:首先粗略的定位目标,然后通过tracking stages进行refine获取更好的结果。

8.2 Box Estimation的相关工作

  • 早期的box Estimation

    主要分为两类:multiple-scale search以及sampling-then-regression strategies.
    两种级别的策略:multiple-scale search构建不同大小的搜索空间,然后在搜索空间中确定和template(模板)具有相同尺寸的目标。sampling-then-regression策略首先生成若干个samples,然后找到最佳的那个,最后应用回归来获取最佳的结果

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值