Martin大神在CVPR2020的又一跟踪作,快来欣赏:
代码地址:pytracking-master 预训练好的网络地址:prdimp50.pth.tar
将目标跟踪视为每一帧的目标回归问题:
1、使用DCF或Siamese等进行粗略定位,其对于目标背景、杂波和遮挡具有一定鲁棒性【Target Center Regression】;
2、使用单独的网络分支,用于回归目标框【Bounding Box Regression】。
发现问题:
1、大多数跟踪方法关注于目标框中心坐标(即定义为目标的质心)的回归。图中,由于目标外观的微小变化,导致GT框的中心位置发生严重偏移,故而目标中心回归是一项艰巨任务。

2、对GT边界框未进行准确标注,而在训练网络时,标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异,尤其出现运动模糊、遮挡、小目标等情况下尤为明显,所以准确的bbox标签也是一项艰巨任务。

提出方法:

对输入的图像,预测其目标状态
的条件概率密度
,通过最小化其与GT标签分布的KL散度训练回归网络;同时还对噪声标签和产生歧义的部分进行建模,并利用近似积分最小化KL散度。
回归问题:
对于映射函数,
为图像所在空间,
为连续空间,并给定样本对
,求得映射函数。
1)直接回归法
定义损失函数,直接计算:
特点:虽在光流法、深度估计等小有成就。但在目标检测与跟踪、人体姿态估计不太适用。
2)置信度预测回归法
定义置信度回归函数,同时对每一个
,定义一个gt置信度值的伪标签函数
,其中
。
定义损失函数,其中
。则最终的映射函数为
。
特点:以预测的置信度值编码,能够灵活的表示不确定性。.但
很大程度取决于Loss的选择与生成训练的伪标签,本身没有明确的解释,只能充当最大化的量。而且对于伪标签
,通过具有更宽的高置信度峰来封装问题1中出现的情况。
置信度预测回归相比直接回归的优点:
1,在空间中,前者更能捕获到不确定性、多假设与歧义的存在。
2、前者更能轻松利用与
空间共享的对称性,e.g平移不变性。

Loss的计算
![]()

在本文中,作者计算GT分布与预测的条件概率密度
之间的KL散度:

对于公式(8),作者提出了两种方法来近似:
1)网格采样
通过评估CNN在y处的输出得到(平移不变性),其中,
是一个CNN网络。

为作用在CNN网络
网格位置的一组集合。
为单个网格单元的面积。最终的Loss是所有
的平均值。
特点:该方法不能很好的缩放到更高的维度,而且刚性网格会引起采样偏差
2)蒙特卡洛积分

其中,是从伪标签中提取的样本,
是覆盖
与
的区域。
特点:需要对网络进行多次评估。
回归训练
1)TCR目标中心回归:
由于网络为全卷积,故采用网格采样近似
与
的KL散度。

简单地,设
,得到

![]()
定义Loss:
与DiMP推导不同,作者在最速下降公式中,用二次牛顿法代替高斯牛顿法:

其中,
由链式法则可得:
记![]()

那么公式(17b)的分母可以表示为:


2)BBR目标框回归:
对
进行积分以建立bbox标签中的噪声和不确定模型,利用蒙特卡洛积分最小化KL散度【文献18表明,以anno为中心的简单高斯混合可以有效地进行bbox回归】。
回归方法比较
L2:使用DiMP中BBR的标准平方损失
R-L2:使用DiMP中TCR的损失

NLL:最小化
的负对数似然函数

标签不确定性分析
![]()

结论:过高 (即标签过于不确定)会影响输出,过低则会使输出达到次优点。故正确建模标签不确定性对视觉跟踪非常重要。
不同算法结果比较




Martin大神在CVPR2020发表新作,提出将目标跟踪视为目标回归问题,使用DCF或Siamese进行初步定位,引入独立网络分支回归目标框。文章分析了目标中心回归与边界框回归面临的挑战,提出通过预测目标状态条件概率密度并最小化KL散度的创新方法。
1万+

被折叠的 条评论
为什么被折叠?



