CVPR-2021-Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation 阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_41442511/article/details/124561710

论文地址：
https://arxiv.org/abs/2012.06815
代码地址：
https://github.com/MasterBin-IIAU/AlphaRefine

动机：

现有的跟踪器存在低质量的包围框估计问题，设计一个特别的细化模块可能更有助于包围框的估计。

优点：

Alpha- Refine是独立训练的，可以以即插即用的方式直接应用于任何现有的跟踪器，不需要额外的训练或修改基础跟踪器。
在这里插入图片描述

Alpha-Refine整体架构:

在这里插入图片描述

Alpha-Refine整体架构描述:

采用具有两个输入孪生网络架构，主干网络参数共享，融合模块由一些卷积层组成，负责将来自两个分支的提取特征进行相关融合，以产生用于预测头的特征，掩码预测头平行于回归预测头，不仅可以将将像素级监督引入训练，还可以输出掩码结果。在具体的使用过程中，先由Base Tracker产生一个预测区域，然后Alpha-Refine会将该区域扩展到两倍大小的同心搜索区域，这样得到的细化区域的大小是感兴趣目标的大约两倍，但却比普通的搜索区域小大约四倍（测试过程中），这样可以有效抑制背景杂乱，更利于精确定位，还能降低计算成本。在Alpha-Refine的特种融合模块中不在使用与滑动窗口类似的简单关操作。而是将K ∈ RC×H0×W0和S∈ RC×H×W表示为模板和搜索区域的特征。逐像素相关首先将K分解成H0W0个小核Kj∈ RC×1×1，然后用它们分别计算相关，得到相关图C∈ RH0W0×H×W，过程可以描述为：
在这里插入图片描述
这样可以确保每个相关图都能编码目标上局部区域的信息，同时避免极大的相关窗口模糊特征。
预测头的设计见下图更好理解，Bounding Box Head根据Base Tracker得到的框预定义一个anchor，然后根据该锚框进行边界回归，思想同SiamRPN,结构为两个Conv-BN-ReLU然后是gap和fc层输出4个坐标的偏移量，LOSS采样GIOU loss。
Corner Head 首先通过Conv-BN-ReLU-Bilinear将heatmap上采样到和原图一样的大小，然后通过soft-argmax来预测角点坐标，使用最小平方损失计算误差。这种方法相比传统角点预测好处有：1. heatmap分辨率很高，没有量化误差；2. 避免了使用高斯标签带来的样本不平衡。Mask Head可以基于掩码注释更好地教导模型区分前景背景，这有利于分割或跟踪任务。在这项工作中，mask head被实现为U-Net风格的解码器，它逐渐对特征图进行上采样，同时将它们与主干中的低层特征进行融合，直到分辨率与输入图像相同，并且从最后一层预测mask。在推断阶段，默认情况下禁用掩码头以加速Alpha细化。对于需要像素级预测的场景，可以激活掩码头，产生掩码预测作为输出。最终所有预测都被转换成[最左、最上、最右、最下]格式的坐标向量，并与GT进行比较，以获得误差。
损失计算如下：实验中λ = 1000
在这里插入图片描述