[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

Hello,大家好!好久没有写博客了,CVPR2020的好多论文都出来了,其中关于目标跟踪的也有很多篇,有时候也会感叹为什么我才搞懂上一个SOTA,新的SOTA就立马出来了呢,好了,不碎碎念了,从这周开始呢,我会对CVPR2020中关于目标跟踪的论文做一个分享,可能有不对的地方,还请大家指出哦。

更新时间:20200410

摘要:

视觉跟踪从根本上讲是回归每帧视频中目标状态的问题。虽然已经取得了重大的进展,但是跟踪器仍然会出现失败和不准确的情况。因此,在目标估计时表达不确定因素是十分重要的。尽管目前的主流算法依赖于估计一个基于状态的置信度分数,但是该值缺少清晰的概率解释,从而使其应用复杂化。

因此在本文的工作中,我们提出了一个基于概率的回归方法,并将其用于跟踪。在给定输入图片的情况下,我们的网络预测了目标状态的条件概率密度。严格的来讲,我们的方法能对来源于不准确标注和任务中模糊情况的标签噪声进行建模。回归网络通过最小化KL散度训练。当应用于跟踪时,我们的方法不仅允许对输出进行概率表达,而且大大地提升了跟踪效果。我们的跟踪器在6个数据集上为SOTA,在LaSOT上的AUC达到59.8%,在TrackingNet上的Success为75.8%。代码和模型链接:https://github.com/visionml/pytracking

1、引言

视觉目标跟踪就是在每一帧视频中估计目标状态的任务。最常见的情况是用边界框来表示目标的状态。不同的问题来源于给定的场景先验信息,例如目标类别或静态相机。最一般的形式是没有先验信息,仅在推理的过程中给定目标的初始状态。这带来不小的挑战,因为算法必须在跟踪时自己学习目标的模型。

和其他视觉任务(如目标检测、姿态估计和关键点检测)一样,视觉跟踪从根本上来说是一个回归问题。因此任务的目标变为学习一个模型,特别是一个能够预测每帧中目标状态的深度神经网络。尽管当前和过去的技术采用了大量的方法去解决这个问题,大多数成功的方法在关键角度方面是相同的。也就是说,回归帧中的目标状态是通过对任意给定状态学习预测置信度值来实现的。接下来,目标状态通过最大化置信度分数来估计得到。

上述基于置信度的回归方法常用于之前主流的判别相关滤波器(DCF)算法和最近的Siamese跟踪器中。为了定位目标,两类方法都采用了卷积操作来预测目标在空间位置处的置信度分数。最近的工作(DiMP和ATOM)展示了训练网络分支来预测整个目标框的置信度分数的效果,从而实现边界框的准确回归。由于基于置信度回归方法的巨大成功,我们首先讲一下视觉跟踪中最近的进展。

基于置信度的回归方法较明显的优势是它能够灵活表达不确定物体,并将其编码为预测的置信度值。与之相反,直接的回归方法强迫网络致力于单个预测,而不会提供其他信息。然而,置信度值并没有清晰的解释,因为它只是简单的作为一个要被最大化的值。值的范围和预测的置信度值的特性很大程度上依赖于loss的选择和生成用于训练的相关联伪标签的方法。这为设计估计方法和推理预测中不确定性的方法带来不小的挑战。这些方法在跟踪中是高度相关的,比如去确定当目标丢失时是否更新,或输出的不确定性有多大(见图1)。我们将通过概率的角度来解决这些问题。

1 本文方法与SOTA跟踪器DiMP和SiamRPN++的比较。在跟踪时,估计目标状态的不确定性在下面几种情况中是十分重要的:相似物体的出现(第一行)、遮挡(第二行)、失败(第三行)、模糊或有其他障碍物(第四行)。与SOTA不同,我们的方法预测了目标状态基于输入图片的概率分布,给出了输出的清晰解释。所提出的概率表达式进一步提升了跟踪器整体的效果,包括上面展示的情形。 

 贡献:我们提出了在给定输入图片的情况下学习去预测目标状态的条件概率密度。和置信度值不同,密度有清晰且直接的解释,从而使得计算绝对概率成为可能。我们假定没有特定的分布族,例如高斯分布,而是让直接由网络结构自己参数化。特别的,密度通过SoftMax操作的连续一般化来代表,该方法以前用于基于能量的模型,最近用于DCTD。和这些之前的工作相比,我们也对标注的不确定性进行了建模。这对跟踪时应对标注中的噪声和回归任务中的模糊性是十分重要的。网络是通过最小化预测的密度和标签分布之间的KL散度来训练的。

我们将本文的方法引入DiMP算法中,从而展示其效果。我们的跟踪器允许对预测目标状态进行完全概率表达。在7个数据集上的大量实验表明我们的概率表达和训练大大的提升了跟踪器的性能。我们的概率DiMP(PrDiMP)远远超过之前的SOTA,尤其是在大型数据集上,包括LaSOT(+2.9%AUC)和TrackingNet(+1.8%Success)。

2、通过置信度预测的回归

在机器学习中,回归从根本上讲是在给定样本对的情况下,学习从输入空间到连续输出空间的映射。本文中,表示图片空间。关于回归最直接的做法是通过最小化loss函数来学习函数,其中可能以权重为的深度神经网络参数化。上式中,度量了预测值和相对应的ground-truth值之间的差异。尽管损失的选择很大程度上取决于问题,流行的替代方法包括家族,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值