SiamRCR学习笔记
1.拟解决问题
大多数基于Siamese网络的跟踪器都是将分类置信度最大的边界框作为最终的跟踪结果,但是由于分类和回归的精度不一致,该策略可能会错过正确的结果。
2.贡献
a.提出了一种新的跟踪模型,以新的简单、直观和有效的方法解决了长期未解决的分类和回归不对齐的问题
b.这为如何将多个分支的损失联系起来,使训练和推理过程更加一致提供了一种新的方法,可能对其他任务提供启示。
3.解决问题
3.1 网络结构
整体步骤:
a.将图片对分别送入骨干网络,并得到相应的特征
b.对两个特征图进行深度互相关得到相关图,并将特征图分别送入分类分支和回归分支后得到分类得分图、位置得分图和回归图
c.通过交互链路来分别计算三者损失,最后根据跟踪得分最高的点以及其回归分支的输出来确定跟踪目标
3.2 Regression Assistance Link
为了消除定位精度低的边界框仍然获得较高分类分数的可能性,文中使用定位精度来加权分类损失,由于模型优化过程中定位精度不断变化,因此回归帮助分支可以被认为是一种动态的样本重加权,损失表示如下:
其中
p
x
,
y
c
l
s
p_{x,y}^{cls}
px,ycls是预测的分类得分图,
c
x
,
y
∗
c_{x,y}^*
cx,y∗指的前后景分类标签,如果(x,y)在目标中心的半径为r的范围内则为1,否则为0,这里的r是一个超参数,
B
x
,
y
和
B
x
,
y
∗
B_{x,y}和B_{x,y}^*
Bx,y和Bx,y∗分别指的是预测的包围盒和真实的包围盒坐标(左上角和右下角),
B
x
,
y
B_{x,y}
Bx,y公式如下:
3.3 Classification Assistance Link
为了避免低置信度的位置得到高精度的边界框,回归分支应该注意分类置信度,本文通过分类得分加权回归损失,其损失表示如下:
其中
t
x
,
y
,
t
x
,
y
∗
t_{x,y},t_{x,y}^*
tx,y,tx,y∗表示的是宽、高和目标中心坐标的偏移量。
3.4 Localization Score Branch
选择分类得分图最高的边界框可能导致一定的精度偏差,因此我们要结合定位得分得到的跟踪目标更加鲁棒,定位得分通过真实包围盒和预测包围盒求IOU,但是在测试阶段,并没有提供真实包围盒,所以文中提出了定位分支来预测定位得分。损失函数如下:
从上图我们可以看出,最终的跟踪得分是通过分类得分和定位的得分的乘积求得,定位得分进一步减少了低质量的盒子,提高了整体跟踪精度,最后根据跟踪得分最大点对应的包围盒回归结果得出最终的跟踪的目标
4.实验结果
GOT-10k:
TrackingNet:
LaSOT:
VOT-2019: