CVPR-2021-Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation 阅读笔记

论文地址:
https://arxiv.org/abs/2012.06815
代码地址
https://github.com/MasterBin-IIAU/AlphaRefine

动机:

现有的跟踪器存在低质量的包围框估计问题,设计一个特别的细化模块可能更有助于包围框的估计。

优点:

Alpha- Refine是独立训练的,可以以即插即用的方式直接应用于任何现有的跟踪器,不需要额外的训练或修改基础跟踪器。
在这里插入图片描述
在这里插入图片描述

Alpha-Refine整体架构:

在这里插入图片描述

Alpha-Refine整体架构描述:

采用具有两个输入孪生网络架构,主干网络参数共享,融合模块由一些卷积层组成,负责将来自两个分支的提取特征进行相关融合,以产生用于预测头的特征,掩码预测头平行于回归预测头,不仅可以将将像素级监督引入训练,还可以输出掩码结果。在具体的使用过程中,先由Base Tracker产生一个预测区域,然后Alpha-Refine会将该区域扩展到两倍大小的同心搜索区域,这样得到的细化区域的大小是感兴趣目标的大约两倍,但却比普通的搜索区域小大约四倍(测试过程中),这样可以有效抑制背景杂乱,更利于精确定位,还能降低计算成本。在Alpha-Refine的特种融合模块中不在使用与滑动窗口类似的简单关操作。而是将K ∈ RC×H0×W0和S∈ RC×H×W表示为模板和搜索区域的特征。逐像素相关首先将K分解成H0W0个小核Kj∈ RC×1×1,然后用它们分别计算相关,得到相关图C∈ RH0W0×H×W,过程可以描述为:
在这里插入图片描述
这样可以确保每个相关图都能编码目标上局部区域的信息,同时避免极大的相关窗口模糊特征。
预测头的设计见下图更好理解,Bounding Box Head根据Base Tracker得到的框预定义一个anchor,然后根据该锚框进行边界回归,思想同SiamRPN,结构为两个Conv-BN-ReLU然后是gap和fc层输出4个坐标的偏移量,LOSS采样GIOU loss。
Corner Head 首先通过Conv-BN-ReLU-Bilinear将heatmap上采样到和原图一样的大小,然后通过soft-argmax来预测角点坐标,使用最小平方损失计算误差。这种方法相比传统角点预测好处有:1. heatmap分辨率很高,没有量化误差;2. 避免了使用高斯标签带来的样本不平衡。Mask Head可以基于掩码注释更好地教导模型区分前景背景,这有利于分割或跟踪任务。在这项工作中,mask head被实现为U-Net风格的解码器,它逐渐对特征图进行上采样,同时将它们与主干中的低层特征进行融合,直到分辨率与输入图像相同,并且从最后一层预测mask。在推断阶段,默认情况下禁用掩码头以加速Alpha细化。对于需要像素级预测的场景,可以激活掩码头,产生掩码预测作为输出。最终所有预测都被转换成[最左、最上、最右、最下]格式的坐标向量,并与GT进行比较,以获得误差。
损失计算如下:实验中λ = 1000
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考:

https://blog.csdn.net/missyoudaisy/article/details/107645409

https://blog.csdn.net/weixin_45032769/article/details/111301036

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值