Probabilistic Regression for Visual Tracking 论文分享

最新推荐文章于 2023-02-19 08:30:09 发布

页页读

最新推荐文章于 2023-02-19 08:30:09 发布

阅读量800

点赞数

文章标签：单目标跟踪 Prdimp

本文链接：https://blog.csdn.net/u014386899/article/details/106986279

版权

分享内容（2020/06/23）

Probabilistic Regression for Visual Tracking

视觉跟踪的概率回归

这篇论文是Martin Danelljan CVPR2020的最新一个工作，这个系列中几篇论文都是一种架构，即将整个跟踪任务分为位置预测和bbox回归两个问题，模型架构采用的是一种类似Siamese架构。这篇论文主要解决的是位置回归的问题，bbox的回归还是直接使用的跟atom\dimp中一样的Iou-net的head。
在atom中位置预测被定义为一个二分类问题，模型学习区分目标和背景两个类别，从而定位目标的位置。
在Dimp中，作者引入元学习，将第一帧的信息融入到后面帧中，即使用第一帧的信息来为后面帧的在线更新模型提供权重，这里在线更新模型是指位置预测和边界框预测的两个Head部分。
在这篇论文中，作者都归为回归问题，这里使用一个条件概率模型来通过前面帧的信息，预测下一帧的位置。

0. 要解决的问题

视觉跟踪从根本上讲就是回归目标在每一帧视频中的状态问题。虽然已经取得了重大进展，但跟踪器仍容易出现故障和不准确。因此，在目标估计中表示不确定性是至关重要的。尽管目前的突出范例依赖于评估一个依赖于状态的信心分数，这个值缺乏一个明确的概率解释，使它的使用复杂化。

1. 亮点

提出了一个概率回归公式来学习预测给定输入图像x的目标状态y的条件概率密度p(y|x)。与置信值s(y, x)不同，密度p(y|x)有一个清晰和直接的解释，允许计算绝对概率。我们假设没有特定的分布族，比如高斯分布，而是让p(y|x)直接由网络结构本身参数化。具体地说，密度p(y|x)由SoftMax操作的连续的泛化来表示，SoftMax操作以前在基于能量的模型[27]中使用，最近在[18]中使用。与之前的工作不同，我们还对注释本身的不确定性进行建模。这在视觉跟踪中非常重要，可以消除注释中的噪音和回归任务本身的歧义。通过最小化预测密度和标签分布之间的Kullback-Leibler散度来训练网络。

我们的跟踪器在六个数据集上取得了SOTA，在LaSOT上实现了59.8%的AUC，在TrackingNet上实现了75.8%的成功。

2. 基于置信度的回归方法

在机器学习中，回归问题基本上就是学习一个映射： $f_{\theta} : \chi \rightarrow \mathcal {y}$ , 表示从输入空间 $\chi$ 到一个连续的输出空间 $\mathcal {y}$ 。最直接的方法是直接学习函数 $f_\theta$ ,使用 $\theta$ 参数化一个神经网络，最小化一个loss $L(\theta) = \sum_i \mathcal {l}(f_{\theta}(x_i), y_i)$ . 然而，loss函数的选择有很大的问题依赖性，典型的选择就是 $L^p$ 范数家族。

2.1 一般形式 - 基于置信度的预测

形式上，我们将基于信心的回归定义为学习函数 $s_\theta : \nu \times \chi \rightarrow R$ , 给定一个输入-输出对，它预测一个标量置信分数 $s_\theta(y,x) \in R$ . 通过最小化关于y的置信度获得最终的估计： $f(x)=y^{*}$ .

$\mathop{argmax}\limits_{y \in \nu} s_\theta(y,x) \quad \quad (1)$

这样，回归问题就转化为从数据 ${(x_i, y_i)}_i$ 中学习函数 $s_\theta$ . 这通常通过定义函数 $\nu \times \nu \rightarrow R$ 来实现，以生成一个伪标签 $a(y, y_i)$ , 作为预测 $s_\theta(y, x_i)$ 的 ground-truth 置信分数值。置信网络可以通过最小化 loss $\sum_i L(\theta; x_i, y_i)$ 来训练。这里：
$L(\theta; x_i, y_i) = \int_y \mathop{l}(s_\theta(y, x_i), a(y, y_i))dy \quad \quad (2)$

函数 $l\ : R \times R \rightarrow R$ 现在测量的是预测值 $s_\theta(y, x_i)$ 的可信度(y, xi)和对应的标签值 $a(y, y_i)$ 之间的差异。

2.2 在视觉跟踪中的应用形式

在视觉跟踪中，大多数方法都集中于回归目标物体的中心二维图像坐标 $\in R^2$ ，然后选择性地使用该模型通过多尺度搜索来估计单参数尺度因子。这类方法包括广泛流行的鉴别相关滤波器(DCF)方法、大多数的Siamese网络以及一些早期的方法。

DCF 中的使用形式：

在基于DCF的方法中，卷积层是在线训练的，即在tracking期间，预测一个置信度分数：
$s_\theta(y, x) = (w_\theta * \phi(x))(y) \quad \quad (3)$

这里， $w_\theta$ 是卷积核，而 $\phi(x)$ 是从图像x中提取的特征，通常是由权值冻结的CNN提取。将卷积(3)的结果在空间位置y处求值，得到置信值 $s_\theta(y,x)$ . DCF范式在置信度预测上采用了平方损失 $l\ (s, a) = (s - a)^2$ 。几乎所有的DCF方法都使用在 $x_i$ 帧中以目标位置 $y_i$ 为中心的高斯置信伪标签 $y_i) = e^{-\frac{\lVert y - y_i \rVert^2} {2\delta^2}}$ 。

Siamese Trackers 中的使用形式：

与DCF不同， Siamese Trackers目的是在离线训练阶段充分学习网络参数 $\theta$ ，这是通过学习一个嵌入空间序列来实现的，其中目标模板z和框架x之间的相似性可以作为相关性来计算。
$s_\theta(y, x) = (\phi_\theta(z)*\phi_\theta(x))(y) \quad \quad (4)$

Siamese方法通常采用二元交叉熵损失
$a\ log(1+e^{-s}) + (1-a) log(1+e^{s}) \quad \quad (5)$

用在公式（2）中来训练网络参数 $\theta$ .
也就是说，目标定位被视为一个密集的二分类问题，其中伪标签 $y_i) \in [0,1]$ 表示目标/背景类，或者更一般地表示一个伯努利分布。
在目标附近 $\lVert y - y_i \rVert < r$ ，一般设为 $a(y, y_i)=1$ , 否则 $a(y, y_i)=0$ 。

ATOM 模型的使用形式：

首先，使用与上述方法相似的技术对目标进行粗定位。然后，使用单独的网络分支回归目标边界盒。为此目的，ATOM跟踪器[9]使用了一个基于IoU- net[24]的网络头 $s_\theta(y, x)$ ，它给任何输入边界框 $\in R^4$ 评分。这个网络头在离线阶段使用平方差损失 $l\ (s, a) = (s - a)^2$ 来训练以用来预测 IoU overlap $a(y, y_i) = IoU(y, y_i)$ .
在这种情况下，积分(2)在训练时通过采样边界框逼近。在跟踪过程中，通过基于梯度最大化预测置信度得到最优方框(1)。

DiMP 模型的使用形式：

最近，Bhat等人[3]通过设计一种基于元学习的网络架构提出了 DiMP tacker，从一组样本对 ${(z_j, y_j)}_j$ 中预测鉴别目标模型的权重 $w_\theta = \psi_\theta({(\phi_\theta(z_j), y_j)}_j)$ . 然后将预测的权值用于第一阶段鲁棒目标定位，并在跟踪过程中通过学习的递归优化过程进行更新。使用鲁棒版本的平方误差和高斯置信标签a(y, yi)的端到端学习目标模型预测器 $\psi_\theta$ 。第二阶段采用ATOM中提出的边界盒回归技术。

3. 方法

我们提出了一个概率回归模型，它集成了基于置信的回归的所有优点。然而，与上述基于信心的模型不同，我们的方法生成一个预测概率分布 $p(y|x_i, \theta)$ 作为输出。该网络通过最小化预测密度 $\theta)$ 和条件地真分布 $p(y|y_i)$ 之间的KL散度来训练，它模拟(model)了任务本身的标签噪声和歧义。在推理过程中，回归值的点估计是通过最大化预测密度来获得的。

与基于信心的回归方法相比，我们的方法有几个重要的优点。在基于信心的回归方法中，预测 $s_\theta(y, x)$ 很难解释，它的值很大程度上取决于伪标签函数a和使用的损失l。相反，我们方法的概率性质允许对输出中的不确定性进行推理。此外，在该方法中，伪标签函数a被标签条件分布 $p(y|y_i)$ 所代替，它模拟了注释 $y_i$ 中的噪声和不确定性。最后，与基于置信的回归相比，我们的方法不需要损失的选择。相反，我们直接最小化预测分布和ground-truth之间的Kullback-Leibler (KL)散度。接下来，我们提供了所提议的回归模型的一般公式，并在第4节中将其应用于跟踪。

在这里插入图片描述

图2。跟踪器通常被训练来预测地面真值边界盒(红色)的中心坐标。这是左帧的自然选择，并与跟踪器预测(绿色)很好地对齐。仅仅两帧之后(右)，尾巴的运动导致ground-truth中心的位置发生了根本性的变化，现在它位于背景中。这并不一定是目标中心坐标的自然定义，因为对象外观略有变化。因此，目标中心回归是一个模糊的任务，其中不清楚如何定义正确的值 $y_i$ 。我们的公式通过正确值的分布 $p(y|y_i)$ 来模拟回归任务中的模糊性和不确定性。

3.1 表达（Representation）

在这一节中，我们制定了一种方法来有效地训练网络，以预测给定输入x的输出y的概率分布 $\theta)$ 。密度本身使用之前在基于概率能量的深度学习[27]中使用的公式和最近的深度条件目标密度来表示.
$\theta) = \frac{1}{Z_\theta(x)} e^{s_\theta(y, x)}, Z_\theta(x) = \int e^{s_\theta(y, x)}dy \quad (6)$

对于第2节中描述的基于置信的方法， $s_\theta \ : y \times \chi \rightarrow R$ 是一个将输出-输入对(y, x)映射到标量值的深度神经网络。表达式(6)将该值通过求幂并通过归一化常数 $Z_\theta(x)$ 除成概率密度。实际上，应该注意的是(6)是SoftMax操作对任意输出空间Y的直接推广。

由于网络的输出代表了在Y上的一个概率密度，我们可以通过对数据拟合概率分布的技术来学习网络参数 $\theta$ 。给定训练样本对 ${(x_i, y_i)\}_i$ , 最简单的方法是最小化负对数似然，
$p(y_i|x_i, \theta) = log(\int e^{s_\theta(y, x_i)}dy) - s_\theta(y_i, x_i) \quad (7)$

该策略最近已成功应用于许多计算机视觉任务[18]中，包括视觉跟踪中的边界框回归。负对数似然损失(7)的一个优点是它只使用训练样本 $x_i, y_i)$ 本身，没有进一步的假设。然而，这带来了一个重要的限制，我们将在下面讨论。

3.2 标签的不确定性和学习目标

与负对数似然损失(7)相比，由于伪标签函数 $a(y,y_i)$ ，第2节中描述的基于信心的范式具有一定的灵活性。在实践中， $a(y,y_i)$ 的设计已经被证明是跟踪性能的关键[4,39]。我们认为，这主要是由于任务本身的模糊性和标签yi本身的不确定性。大多数跟踪方法集中于回归目标在图像中的中心坐标 $\in R^2$ 。然而，对于大多数对象来说，这是一项固有的模糊和定义不明确的任务。虽然中心坐标可以定义为目标边界框的质心，但这对人来说并不是一个直观的识别，也不是一个跟踪算法。

我们提出将回归问题的概率模型标记噪声和任务歧义作为条件 ground-truth 分布 $p(y|y_i)$ 。在注释 $y_i$ 的前提下，描述了地真值输出值y的概率密度。我们训练网络将KL散度最小化到 $p(y|y_i)$ 而不是负对数似然(7),

$\begin{aligned} KL(p(\cdot | y_i), p(\cdot|x_i, \theta)) = \int p(y|y_i)log \frac {p(y|y_i)}{p(y|x_i, \theta)}dy \\ \sim log(\int e^{s_\theta(y, x_i)}dy) - \int s_\theta(y, x_i)p(y|y_i)dy \end{aligned} \quad \quad \quad \quad (8)$

备注：

KL散度（相对熵）的定义：
$D_{KL}(p||q) = \sum_{i=1}^{N}[p(x_i)log p(x_i) - p(x_i)log q(x_i)]$
上面的 $p(x_i)$ 为真实事件的概率分布， $q(x_i)$ 为理论拟合出来的该事件的概率分布。上面就是：交叉熵与真实分布的信息熵之差.

这里， $\sim$ 表示等于一个常数项。(8)中的第二行对应两个分布之间的交叉熵，舍弃常数项为标签分布的负熵 $\int p(y|y_i)log p(y|y_i)dy$ 。详细的推导见附录A。
在这里插入图片描述

3.3 训练

在本节中，我们考虑基于损失(8)来训练网络参数 $\theta$ 的策略。实际上，这需要逼近(8)中的两个积分。为此我们考虑了两种技术，即网格抽样和重要抽样蒙特卡罗积分。

网格采样: 对于二维图像坐标回归问题，如回归跟踪目标中心的情况， $\in Y \subset R^2$ 表示图像中的一个位置。在这种情况下，平移不变性被有效地利用参数化 $s_\theta(y, x) = f_\theta(x)(y)$ ，其中 $f_\theta$ 是一个卷积神经网络(CNN)。通过对CNN在图像坐标y处的输出进行求值，得到 $s_\theta(y, x)$ 。设 ${y^{k} \}_{k=1}^K$ 为CNN $f_\theta(x)$ 卷积应用于图像样本x时得到的均匀网格位置的集合。进一步，设A为单个网格单元格的面积。由CNN自动提供的均匀网格采样产生的损失(8)近似如下,
$L_i = log(A \sum_{k=1}^K e^{S_{\theta}(y^{k}, x_i)}) - A\sum_{k=1}^Ks_\theta(y^{(k)}, x_i)p(y^{(k)}|y_i) \quad \quad (9)$

最后的损失是通过对小批量中所有样品i的平均 $L_i$ 得到的。

蒙特卡洛积分: 对于更一般的回归问题，网格抽样不一定提供任何计算上的好处。相反，由于刚性网格的存在，它在更高维度上的尺度很差，可能会导致采样偏差。在更一般的情况下，我们采用[18]中提出的基于蒙特卡罗(MC)的采样策略。具体地说，我们在训练期间从提议分布 $q(y|y_i)$ 中抽取样本 $y_i^{(k)} \sim q(y|y_i)$ 。用相同的样本来近似式(8)中的两个积分,
$L_i = log(\frac {1}{k} \sum_{k=1}^K \frac {e^{s_\theta(y_i^{(k)}, x_i)}}{q(y_i^{(k)}|y_i)}) - \frac{1}{K} \sum_{k=1}^{K}s_\theta(y_i^{(k)}, x_i) \frac {p(y_i^{(k)} | y_i)}{q(y_i^{(k)} | y_i)} \quad \quad (10)$

为了准确地近似原始损失(8)，提议分布 $q(y|y_i)$ 应该理想地覆盖标签分布 $p(y|y_i)$ 以及预测密度高的区域 $p(y|x_i, \theta)$ 。在[18]中，以 $y_i$ 注释为中心的简单高斯混合足以完成各种任务，包括边界盒回归。

损失(10)需要对网络的局域网 $s_\theta(y_i^{(k)}, x_i)$ 进行多次评估。然而，在实践中，计算机视觉体系结构通常使用深层骨干特征提取器 $\phi_\theta(x)$ (如ResNet[20])生成图像的强大表示。输出值y可以在后期熔合，即 $s_\theta(y, x) = f_\theta(y, \phi_\theta(x))$ 。这允许在所有样本 $y_i^{(k)}$ 之间共享需要计算的特征提取 $\phi_\theta(x_i)$ 。针对我们的目的，这种架构已经成功应用于对象检测和视觉跟踪问题中的边界盒回归[3,9,18,24].

4. 跟踪方法

我们将第3节中介绍的一般概率回归公式应用于具有挑战性和多样性的视觉目标跟踪任务。

4.1 基线跟踪器：DiMP

我们采用最近的最先进的跟踪DiMP[3]作为我们的基线。正如第2.2节中简要讨论的，DiMP模型包含两个输出分支。

目标中心回归(Target Center Regression, TCR): 中心回归分支通过回归目标的中心坐标，粗略地定位图像中的目标。这个分支强调稳健性而不是准确性。它由一个线性卷积输出层组成，网络将其权重 $w_\theta$ 预测为一个可最小化 $L^2$ 的判别学习损失的展开优化过程。这允许跟踪器从背景中的相似对象中有力地区分目标对象。与(3)相似地预测了帧x中位置 $y^{tc}$ 的目标中心置信度，即 $s_\theta^{tc}(y^{tc}, x) = (w_\theta * \phi_\theta(x))(y^{tc})$ ,这里 $\phi_\theta$ 是主干特征提取器。该分支在元学习设置中进行训练，使用高斯伪标签 $a^{tc}$ 和鲁棒 $L^2$ 损失进行基于信心的目标(2),
$\begin{cases} 0 & (s-a)^2, a>T \\ 1 & max(0,s)^2, a \leq T \end{cases}$

在跟踪过程中，通过在帧x内较宽的搜索区域内密集计算置信值 $s_\theta^{tc}(y^{tc}, x)$ 来回归目标中心。详见[3].

边界盒回归(Bounding Box Regression, BBR): BBR分支采用[9]中提出的基于目标条件IoU-Net的[24]架构。正如在2.2节中所讨论的，该分支为给定的box $y^{bb} \in R^4$ 预测了置信分数 $s_\theta^{bb}(y^{bb}, x)$ 。使用边界框IoU作为伪标签 $a^{bb}(y^{bb}, y_i^{bb})$ 和(2)中的标准 $L^2$ 损失l对其进行训练。在跟踪过程中，应用BBR分支利用 $s_\theta^{bb}(y^{bb}, x)$ 关于 $y^{bb}$ 的基于梯度的最大化，将一个准确的边界框匹配到目标上。详见[9]。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ncPkm87f-1593254516935)(en-resource://database/2858:1)]

4.2 我们的跟踪器：Probabilistic DiMP

我们引入了一种完全概率输出表示的跟踪方法，通过将我们的回归公式整合到基线DiMP的两个分支来获得。图4显示了实例预测密度。

目标中心回归: 我们将(6)应用于网络输出 $s_\theta^{tc}(y^{tc}, x)$ 来表示目标中心坐标 $p(y^{tc}|x, \theta)$ 的预测分布。由于该分支是完全卷积的，我们使用网格采样策略(9)近似kl散度损失(8)进行训练。设条件地真密度为高斯 $p(y^{tc}|y_i^{tc}) = N(y^{tc}; y_i^{tc}, \delta_{tc}^2)$ 对应的伪标签函数 $a^{tc}$ 在基线DiMP(目标大小的1/4分之一)中使用相同的方差参数 $\delta_{tc}^2$ . 对于预测中心回归分支的卷积权值 $w_\theta$ 的优化模块，我们使用了带有L2正则化项的KL-散度损失(9)。由于原来的高斯-牛顿近似只适用于最小二乘目标，我们修改了基于最陡下降的结构[3]，使其采用二阶泰勒展开。
我们的方法得益于这样一个事实，即在 $w_\theta$ 中，对于线性预测器 $s_\theta^{tc}(y^{tc}, x) = (w_\theta * \phi_\theta(x))(y^{tc})$ ，所得到的目标(9)是凸的, 多亏了梯度和Hessian的解析表达式。有关优化器模块的详细描述，请参阅附录B。

边界框回归： 我们和[9,3]使用相同的架构，并将其应用到我们的概率公式(6)中。我们遵循[18]的工作，它使用负对数似然损失(7)和基于MC的近似将相同的ATOM BBR模块[9]扩展到概率设置。在这项工作中，我们进一步整合标签分布 $p(y^{bb}|y_i^{bb})$ 来建模边界框标注中的噪声和不确定性，并使用MC采样(10)最小化KL-散度(8)。特别地，我们使用一个各向同性的高斯分布 $p(y^{bb}|y_i^{bb}) = N(y^{bb}; y_i^{bb}, \delta_{bb}^2)$ ,并且设置 $\delta_{bb}=0.05$ . 为了进行公平的比较，我们使用相同的提案分布 $q(y^{bb}|y_i^{bb}) = \frac {1}{2}N(y^{bb}; y_i^{bb}, 0.05^2) + \frac {1}{2}N(y^{bb}; y_i^{bb}, 0.5^2)$ 并和[18]中一样将边界框参数化。

细节: 我们的整个网络使用与原始DiMP[3]相同的策略和设置，通过将其集成到公开可用的PyTracking框架[7]中，进行端到端联合训练。使用LaSOT [13]， GOT10k [23]， TrackingNet[33]和COCO[30]的训练分块，运行50 epoch，每个迭代1000次。我们还在DiMP中保留了跟踪过程和设置，只执行最小的更改，这是由我们的模型提供的概率输出表示强制执行的。由于网络输出的尺度不同，我们相应地改变了缺失目标的阈值和用于边界盒回归的梯度步长。训练和推理设置的详细描述参见[3,7]。我们的代码可以在[7]找到。