论文地址:
https://arxiv.org/abs/2012.06815
代码地址:
https://github.com/MasterBin-IIAU/AlphaRefine
动机:
现有的跟踪器存在低质量的包围框估计问题,设计一个特别的细化模块可能更有助于包围框的估计。
优点:
Alpha- Refine是独立训练的,可以以即插即用的方式直接应用于任何现有的跟踪器,不需要额外的训练或修改基础跟踪器。
Alpha-Refine整体架构:
Alpha-Refine整体架构描述:
采用具有两个输入孪生网络架构,主干网络参数共享,融合模块由一些卷积层组成,负责将来自两个分支的提取特征进行相关融合,以产生用于预测头的特征,掩码预测头平行于回归预测头,不仅可以将将像素级监督引入训练,还可以输出掩码结果。在具体的使用过程中,先由Base Tracker产生一个预测区域,然后Alpha-Refine会将该区域扩展到两倍大小的同心搜索区域,这样得到的细化区域的大小是感兴趣目标的大约两倍,但却比普通的搜索区域小大约四倍(测试过程中),这样可以有效抑制背景杂乱,更利于精确定位,还能降低计算成本。在Alpha-Refine的特种融合模块中不在使用与滑动窗口类似的简单关操作。而是将K ∈ RC×H0×W0和S∈ RC×H×W表示为模板和搜索区域的特征。逐像素相关首先将K分解成H0W0个小核Kj∈ RC×1×1,然后用它们分别计算相关,得到相关图C∈ RH0W0×H×W,过程可以描述为:
这样可以确保每个相关图都能编码目标上局部区域的信息,同时避免极大的相关窗口模糊特征。
预测头的设计见下图更好理解,Bounding Box Head根据Base Tracker得到的框预定义一个anchor,然后根据该锚框进行边界回归,思想同SiamRPN,结构为两个Conv-BN-ReLU然后是gap和fc层输出4个坐标的偏移量,LOSS采样GIOU loss。
Corner Head 首先通过Conv-BN-ReLU-Bilinear将heatmap上采样到和原图一样的大小,然后通过soft-argmax来预测角点坐标,使用最小平方损失计算误差。这种方法相比传统角点预测好处有:1. heatmap分辨率很高,没有量化误差;2. 避免了使用高斯标签带来的样本不平衡。Mask Head可以基于掩码注释更好地教导模型区分前景背景,这有利于分割或跟踪任务。在这项工作中,mask head被实现为U-Net风格的解码器,它逐渐对特征图进行上采样,同时将它们与主干中的低层特征进行融合,直到分辨率与输入图像相同,并且从最后一层预测mask。在推断阶段,默认情况下禁用掩码头以加速Alpha细化。对于需要像素级预测的场景,可以激活掩码头,产生掩码预测作为输出。最终所有预测都被转换成[最左、最上、最右、最下]格式的坐标向量,并与GT进行比较,以获得误差。
损失计算如下:实验中λ = 1000
参考:
https://blog.csdn.net/missyoudaisy/article/details/107645409
https://blog.csdn.net/weixin_45032769/article/details/111301036