Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation速读笔记

最新推荐文章于 2022-06-09 16:54:50 发布

不知道叫啥好一点

最新推荐文章于 2022-06-09 16:54:50 发布

阅读量1.1k

点赞数 1

分类专栏：鱼眼行人检测文章标签： boosting 深度学习神经网络

本文链接：https://blog.csdn.net/A_A666/article/details/118220014

版权

鱼眼行人检测专栏收录该内容

8 篇文章 1 订阅

订阅专栏

(一)Title

在这里插入图片描述
前言: 准备开启跟踪的工作了，再不做就毕不了业了，先做文献阅读啦拉啦，欧耶！就是干！
论文地址:https://arxiv.org/abs/2007.02024
代码地址: https://github.com/MasterBin-IIAU/AlphaRefine
关键点：multiple base trackers
最近这篇笔记重新更新了下,可以在这篇博客看到更加详细的介绍

(二) Summary

研究现状及问题：

最近的trackers采用multiple-stage strategy来改善边界框estimation，这些方法首先粗略地定位目标，然后在随后的阶段中细化初始预测。然而，现有方法的精度仍然有限，不同阶段的coupling严重限制了方法的可移植性.
本文的主要贡献内容：

提出了Alpha-Refine(AR),用于提升trackers的边界框,获取到尽可能多的空间信息。采用了一个pixel-wise correlation，a corner prediction head以及一个auxiliary mask head作为核心组件。
实验结果：

在TrackNet，LaSOT，GOT-10K以及VOT2020数据集上进行实验，能够显著提升效果，同时延迟很小。
使用Alpha-Refine增强的ARSiamRPNpp和ARDiMP50实现了良好的效率和精度的balance

(三) Research Object

为了实现Precise box estimation,有multi-scale search以及sampling-then-regression strategy 做法，但是在精度和性能上都不是很好。目前主流的做法是采用multiple-stage tracking strategy,这种做法在box estimation 上依旧存在着提升空间。
现有的跟踪器大多数refinement方法在transferability上很差，因为这个的训练过程和其他的components是组合起来的(这里博主的理解是:整个跟踪过程由多个组件组成，refinement只是其中之一)，当refinement模块应用到新的trackers中时需要进行重新训练。但是，本文提出的Alpha-Refine不需要额外训练。即插即用！
在本文中评估了多个特征融合模块以及预测head，并探索出使用一个auxiliary mask head,进行像素级的监督。

(四) Problem Statement

基于IoU-Net以及SiamMask两个网络得到各自的优缺点最终设计的Alpha-Refine。

(五) Method

在这里插入图片描述

采用孪生架构,包含了两个输入分支：分别记作reference branch以及test branch.骨干网络的参数共享，接着将两个分支提取到的特征使用融合模块进行聚集(这里的融合模块通常是一个correlation模块(naive-correlation,depth-wise correlation以及pixel-wise correlation))。
融合之后的特征由一些卷积层进行处理得到prediction head，同时一个auxiliary mask head用来给training过程增加像素级的监督信息，同时也能够输出mask的结果(这里说的是mask的结果能够为prediction的预测提供额外的信息)
可以同任意的trackers以即插即用的方式结合起来
Alpha-Refine的搜索空间是待检测目标的两倍,比正常的trackers要小(正常trackers的搜索空间为待检测目标的4倍),较小的搜索空间可以抑制杂乱的背景,使模型能够关注更详细的空间信息
需要一个完整的base tracker

5.1 特征融合

孪生结构融合template特征和search region特征方式通常是通过coarse naive correlation或者depth-wise correlation

然而naive correlation以及depth-wise correlation两种方式将整个template特征作为kernel,来和搜索空间的特征进行相关,这个很容易造成特征图上邻近的滑窗之间会产生相似的响应,造成空间信息的模糊,

而本文需要尽可能多地维护空间信息。因此,naive correlation和depth-wise correlation两种方式都不适合。
因此,本文中采用的特征融合方式为pixel-wise correlation从而实现高质量的特征表示，template特征记作 $\in \mathbb{R}^{C \times H_0 \times W_0}$ ，搜索区域的特征记作 $\in \mathbb{R}^{C \times H \times W}$ ，pixel-wise 相关的方法为:

首先将 $K$ 分解成 $H_0 W_0$ 个kernel,记作 $K_{j} \in \mathbb{R}^{C \times 1 \times 1}$
利用 $K_{j}$ 和 $S$ 获取correlation maps得到 $\in \mathbb{R}^{H_{0} W_{0} \times H \times W}$
计算的过程为：
$C=\left\{C_{j} \mid C_{j}=K_{j} * S\right\}_{j \in\left\{1, \ldots, H_{0} \times W_{0}\right\}}$
其中*表示naive correlation，将 $K$ 分解的过程将template特征的每一个部分作为kernel,相当于用每一个kernel来编码搜索区域的信息,同时避免空间特征的模糊。

naive correlation，depth-wise correlation, pixel-wise correlation的区别：
在这里插入图片描述

图4中的( c)表明了原始的卷积只能粗略地表示物体的中心位置，会丢失大部分的形状和比例信息，图4中的(d)需要在特征图通道中编码模糊后的位置信息，这个是不可解释,同时效率较低。图(e)能够很好的保留目标的边界，以及其他的空间信息(感觉这边解释的不是很清楚啊)。

5.2 预测head

在这里插入图片描述
这里探究了3种方式得到的预测边界框：

RPN 方式直接回归边界框坐标
RCNN方式
Cornet Head方式(这种方式是Alpha-Refinement希望的)

这里同时有一个辅助的Mask Head用于实现Precise Bounding Box，这里Mask Head是U-Net结构的,上采样到输入图像的尺寸上。能够帮助模型区分前景和背景,这是分割任务所要求的，同时也有利于跟踪。

(八) Notes

8.1 实现Precise box estimation的方式

multi-scale search
sampling-then-regression strategy
multi-stage tracking strategy(包括了额外的tracking stage)

关于multi-stage tracking strategy方法说明：首先粗略的定位目标，然后通过tracking stages进行refine获取更好的结果。

8.2 Box Estimation的相关工作

早期的box Estimation

主要分为两类：multiple-scale search以及sampling-then-regression strategies.
两种级别的策略：multiple-scale search构建不同大小的搜索空间，然后在搜索空间中确定和template(模板)具有相同尺寸的目标。sampling-then-regression策略首先生成若干个samples，然后找到最佳的那个，最后应用回归来获取最佳的结果

不知道叫啥好一点

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation速读笔记

(一)Title前言: 准备开启跟踪的工作了，再不做就毕不了业了，先做文献阅读啦拉啦，欧耶！就是干！论文地址:https://arxiv.org/abs/2007.02024代码地址: https://github.com/MasterBin-IIAU/AlphaRefine关键点：multiple base trackers(二) Summary研究现状及问题：最近的trackers采用multiple-stage strategy来改善边界框estimation，这些方法首先粗略地
复制链接

扫一扫

专栏目录