【论文翻译】Track initialization and re-identification for 3D multi-view multi-object tracking

soulmode

已于 2024-06-29 10:04:19 修改

阅读量25

点赞数

分类专栏：读论文文章标签：计算机视觉目标检测

于 2024-06-29 10:03:11 首次发布

原文链接：https://arxiv.org/abs/2405.18606

版权

读论文专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章目录

Track initialization and re-identification for 3D multi-view multi-object tracking——3D多视角多目标跟踪的轨迹初始化和重识别
摘要
1. 引言
2. 相关工作
- 2.1 视觉多目标检测
- 2.2 视觉多目标跟踪
3. 贝叶斯多视角多目标跟踪
4. 近似多视角多目标跟踪滤波器

Track initialization and re-identification for 3D multi-view multi-object tracking——3D多视角多目标跟踪的轨迹初始化和重识别

摘要

我们提出了一种仅使用单目相机的2D检测进行3D多目标跟踪（MOT）的解决方案，该方案能够自动启动/终止跟踪，同时解决跟踪对象的出现-再出现以及遮挡问题。此外，当相机重新配置时，该方法不需要重新训练检测器，只需更新重新配置相机的相机矩阵。我们的方法基于贝叶斯多目标公式，将轨迹启动/终止、重识别、遮挡处理和数据关联集成到单一的贝叶斯滤波递归中。然而，由于（多目标）滤波密度中的项数呈指数增长，利用所有这些功能的精确滤波器在数值上是不可行的，而现有的近似方法在速度上做了一些功能的权衡。为此，我们开发了一种更高效的近似方法，适合在线MOT，通过将对象特征和运动学融入测量模型，改进数据关联，从而减少项数。具体而言，我们利用来自多个相机的2D检测和提取的特征，提供更好的多目标滤波密度近似，实现轨迹启动/终止和重识别功能。此外，基于3D对象在相机平面上的2D投影的可处理几何遮挡模型，实现了滤波器的遮挡处理功能。在具有挑战性的数据集上评估该方案表明，与现有的多视角MOT解决方案相比，该方案在相机配置动态变化时表现出显著的改进和鲁棒性。

1. 引言

视觉跟踪是多目标跟踪（MOT）的一个分支，旨在从视频序列中估计未知数量的目标轨迹。MOT有两种主要方法：检测后跟踪（track-by-detection）和检测前跟踪（track-before-detect）。在前者中，目标检测是独立获得的，然后提供给跟踪器生成轨迹估计，而后者则在没有目标检测的情况下对输入信号进行操作。实际上，检测前跟踪计算密集，检测后跟踪更常用，尤其是在视觉MOT中，因为2D目标检测器的效率和可靠性较高。主要的挑战在于目标数量的不确定性和数据关联问题。已经开发了许多检测后跟踪的MOT算法，通常遵循三种主要范式：多假设跟踪（MHT）【1】；联合概率数据关联（JPDA）【2】；和随机有限集（RFS）【3】。

2D视觉MOT的进步和普及主要得益于快速可靠的2D目标检测器。当目标运动相对于帧率较慢且目标检测准确时，像SORT【4】和IoU-Tracker【5】这样的简单跟踪器可以在几乎不需要计算时间的情况下实现准确的跟踪率。对于具有较高不确定性水平的挑战场景，则需要更复杂的跟踪器【6,7】。此外，2D图像中的目标通常富含视觉特征（例如在街道上行走的行人）和视觉线索，可以用来区分不同的目标【8,9】，改进数据关联以及在目标重新出现时重新识别丢失的轨迹【8】，假设目标的视觉外观变化缓慢。

由于人、车、无人机等目标存在于3D世界中，2D轨迹对于场景理解或跟踪后的分析是不足够的【10,11】，这需要3D视觉跟踪。此外，3D世界坐标系中的轨迹对于体育分析、养老、学校环境监控等应用更具信息量。多视角数据还可以帮助解决遮挡问题，因为在一个视角中被遮挡的目标可以在其他视角中被检测到。

一种流行的3D视觉跟踪解决方案是将MOT应用于通过多视角融合从2D多视角检测中重建的3D检测【12,13】。然而，与在2D图像中检测目标不同，从多视角图像中确定目标的3D位置具有挑战性【14,15】。尽管某些深度学习解决方案可以实现高检测精度，但训练3D目标检测器的计算要求很高，尤其是在高维场景（例如大量摄像机）中【16】。此外，当摄像机配置发生变化时，检测器需要重新训练，这限制了跟踪器的在线操作。

我们提出了一种3D视觉跟踪算法，利用多传感器MOT从2D多视角检测中提取的特征，自动初始化/终止并重新识别轨迹，同时解决遮挡问题。与许多仅提供地面平面全局轨迹的3D视觉跟踪技术不同，所提出的解决方案通过在线处理来自多个单目摄像机的2D检测，以提供3D世界坐标系中的轨迹。我们的方法利用了2D目标检测和多传感器MOT的进展，这些技术利用了具有重叠视野的摄像机的几何信息，以准确估计3D目标的形状和位置。所提出的多视角MOT（MV-MOT）算法在所有摄像机上的检测数量上具有线性复杂度。此外，当摄像机重新配置时，它不需要重新训练检测器，并且能够无缝融合其他类型的传感器数据。在具有挑战性的数据集上的性能评估表明，与现有解决方案相比，在跟踪精度上有显著提高，并且在摄像机配置即时变化时具有较高的鲁棒性。还进行了消融研究以说明其优势。

图1显示了所提出的3D视觉跟踪解决方案的示意图。我们的贡献总结如下：

新颖的多目标动态和测量模型：这些模型共同考虑了目标的运动学、形状、在不同摄像机上的视觉特征以及遮挡（包括部分和完全遮挡）；
MV-MOT滤波器的一个近似：它使用2D多视角单目检测，以线性复杂度自动执行3D轨迹的初始化/终止、重新识别和遮挡处理；
广泛的实验：在包括Curtin多摄像机（CMC）【17】和WILDTRACK（WT）【13】数据集的挑战性基准上评估性能。

本文的组织如下：第二节讨论了2D/3D目标检测和跟踪的相关工作。第三节介绍了形成我们3D视觉MV-MOT解决方案的动态和测量模型以及贝叶斯递归。第四节提出了MV-MOT滤波器的一个高效近似，实现了自动轨迹初始化/重新识别和遮挡解决。第五节提供了验证我们跟踪解决方案有效性的广泛实验，第六节对本文进行了总结。

图 1. 提出的3D多视角多目标跟踪（MV-MOT）解决方案示意图
多视角检测（来自所有摄像头的边界框和视觉特征）被输入到MV-MOT滤波器中，该滤波器集成了多目标动态模型和测量模型，实现所有多目标跟踪（MOT）功能。

2. 相关工作

2.1 视觉多目标检测

从2D图像中进行多目标检测是计算机视觉中的一个关键研究课题。早期的检测器使用模板匹配在图像中定位目标【18】。许多基于学习的解决方案依赖于可训练分类器，例如支持向量机或Adaboost，利用Haar、尺度不变特征变换（SIFT）【20】和方向梯度直方图（HOG）【21】等特征来检测目标【19】。由于卷积神经网络（CNNs）的实用性，深度学习在目标检测中变得越来越流行【22】。有效的区域建议算法【23】和CNN特征（即从CNN中提取的特征）相结合，产生了实时、高性能的2D目标检测器【24】。YOLO算法通过将检测视为回归问题而跳过了区域建议步骤，大大提高了效率【25】。最近，还提出了一些将目标检测公式化为一组学习任务的算法【26】。公开的大规模数据集对于2D目标检测解决方案的快速发展，尤其是基于学习的方法，起到了关键作用【27,28】。

检测2D图像中被遮挡的目标是一个具有挑战性的问题。多视角图像通过融合不同视角的信息，比单视角图像提供更准确的检测。在【29】中，通过从背景减除的图像构建概率占用图来定位地面平面的目标。然而，这种方法往往会产生大量的误报。不过，这可以通过【30】中提出的基于贝叶斯网络的技术来减少。或者，在【31】中使用Gibbs采样从后验分布（基于2D检测）生成目标数量及其空间位置。CNN特征也可以用于多视角检测，例如在【16】中，使用判别性CNN特征提取模块结合生成遮挡模型来构建地面平面上目标的存在概率图，而在【32】中，CNN特征被投影到地面平面，然后输入分类器以定位目标。基于类似投影的方法也在【33,34】中提出。

2.2 视觉多目标跟踪

视觉MOT（多目标跟踪）解决方案可以分为在线和批处理两类。批处理算法从一批数据中估计目标轨迹，每个时间步的计算复杂度随时间窗口的增长而增加。而在线算法则在新数据到达时在每个时间步估计目标轨迹，每个时间步的计算复杂度与时间无关，因此在实际应用中比批处理算法更受欢迎。

在2D视觉MOT中，仅利用运动和形状信息的算法速度快，但无法处理复杂场景【4,5】。相反，使用目标的视觉特征可以提高跟踪效果。手工设计的特征（例如SIFT、HOG）在区分不同目标方面效果不佳【35】，而CNN特征由于其多尺度表示更为合适。在【35】中，检测和特征提取使用了不同的模型。虽然在【36】中证明了使用单一模型进行这两个任务效率更高，但需要在这两个任务之间找到平衡【9】。文献中利用特征线索的最先进（SOTA）的2D多目标跟踪器包括POI【37】、MOTDT【35】、DeepSORT【38】和GSDT【39】。

多视角多目标跟踪（MOT）解决方案变得越来越重要，因为摄像头的普及以及其在跟踪性能上相比单视角技术的优势。在文献【40】中，使用单应性约束来跟踪人类的脚步；在文献【41】中，将单视角图像中的头部进行定位，然后转换到世界坐标系中进行跟踪。在文献【42】中，使用主轴关联摄像头之间的轨迹片段，而在文献【43】中则使用了高级语义线索。在文献【44】中，将2D检测映射到3D位置，并结合相关线索（如运动、特征、几何接近度）使用分层组合模型关联轨迹片段。在文献【45,46】中，使用多台单目摄像头为自动驾驶应用跟踪不同类别的3D目标。

遮挡处理是视觉跟踪中的一个重要功能。在单视角情况下，某些解决方案依赖于能够定位目标部分的检测器【47】，尽管训练这种检测器以获得准确的定位结果是困难的。一种流行的方法是使用专门的模块分析遮挡，利用目标深度【48】或目标的空间信息及其交互来解决遮挡问题【49,50】。在多视角情况下，遮挡问题也可以在多视角数据融合过程中隐式解决，通常在检测或跟踪步骤中利用目标位置【16,17】。

数据关联是基于检测的多目标跟踪中的一个关键且具有挑战性的问题。简单算法如全局最近邻（GNN）【2】仅考虑单一的数据关联假设。更复杂的MOT框架如多假设跟踪（MHT）、联合概率数据关联（JPDA）和随机有限集（RFS）通过保持多种数据关联假设展示了改进的跟踪性能。标记的RFS解决方案【51】（如GLMB滤波器）由于其低复杂度和高效率，特别适用于在线和多视角MOT【52】。事实上，GLMB滤波器已被应用于各种计算机视觉问题【6,7】，包括用于多视角遮挡处理的多传感器数据关联【17】。

虽然GLMB滤波递归【52】中涵盖了数据关联、轨迹初始化/终止、重新识别和遮挡处理等MOT功能，但实现所有这些功能的精确实现在数值上是不可行的。在文献【17】中，提出了一种近似方法来解决遮挡问题，但忽略了重新识别功能，而轨迹初始化则需要结合准确的先验出生模型（这并不总是可用）和聚类技术。尽管目标特征可以提高跟踪性能【8,9】，但它们并未被滤波器利用来改进数据关联和解决轨迹重新识别问题。此外，文献【17】中的遮挡模型并未考虑部分遮挡，因此无法利用最新的2D目标检测技术【53】。在没有准确先验信息的情况下，从多传感器测量中初始化轨迹是具有挑战性的，因为新轨迹的数量未知、存在漏检和误报，以及多传感器可能的检测组合数量庞大。文献【54】中的最新解决方案利用蒙特卡罗（MC）技术初始化轨迹，其中存在概率依赖于测量的似然性以及检测结果已与已知轨迹关联的可能性。尽管这种解决方案可以直接应用于视觉跟踪，但在速度和准确性之间找到平衡是困难的，更不用说解决轨迹外观–再现的问题。

3. 贝叶斯多视角多目标跟踪

本节介绍了一种贝叶斯跟踪器，可以处理多视角多目标跟踪器的所有功能，包括自动轨迹初始化、终止、重新识别、多视角数据关联和遮挡处理。特别是，将详细介绍目标动态模型和测量模型，以及传播多目标密度随时间变化的贝叶斯递归。本论文中常用的符号列在表1中。

3.1 目标动态模型

一个目标的状态 $\mathbf{x} = (x, \ell)$ 包括来自属性空间 $\mathbb{X}$ 的属性 $x$ 和来自离散标签空间 $\mathbb{L}$ 的标签 $\ell$ 。在时间 $k$ 出生的目标被分配一个时间不变的标签 $\ell = (k, \iota)$ ，其中 $\iota$ 是用于区分同一时间出生的目标的唯一索引。属性 $x$ 包括3D位置 $\zeta$ 、3D速度 $\dot{\zeta}$ 和形状参数 $\varsigma$ 。在给定时间 $k$ 的多目标状态是带有不同标签的 $\mathbb{X} \times\mathbb{L}$ 中个体目标状态的有限集合【51】。

在时间 $k$ ，会有一组（可能为空）新目标出生。时间 $k$ 出生的所有可能目标标签集合是 $\mathbb{L}$ 的一个子集，记作 $\mathbb{B}$ 。标签为 $\ell$ 的新目标以概率 $r_B^{(\ell)}$ 出生，并且在此条件下其属性按照 $p_B^{(\ell)}$ 分布。出生参数 $\{(r_B^{(\ell)}, p_B^{(\ell)})\}_{\ell \in\mathbb{B}}$ 可以预先提供（如果已知新生目标的统计数据），也可以从数据中估计得出。

给定时间 $k$ 的多目标状态 ${X}$ ，其中的每个 $\ell) \in {X}$ 要么以概率 $P_{S,+}(x, \ell)$ 存活到下一时间，要么以概率 $P_{S,+}(x, \ell)$ 死亡。在存活的条件下，目标按照转移密度 $f_{S,+}(x_+|x, \ell)\delta_\ell[\ell+]$ 进入新状态 $(x_+, \ell+)$ ，其中广义Kronecker delta $\delta_\ell[\ell+]$ 被定义为当 $\ell = \ell+$ 时取值为1，否则为0，以确保标签保持不变。下一时间的多目标状态 ${X}_+$ 是新生目标和存活目标的叠加，并且按照多目标马尔可夫转移密度 $\mathbf{f}_+({X}_+|{X})$ 分布（本文中不需要具体表达式，详见【51】）。从此，我们用下标“+”表示下一时间。

在本研究中，我们采用了文献【6】中提出的存活概率模型。形状参数 $\varsigma$ 是包含目标的椭球主轴半长（对数）的三元组，并且遵循随机游走模型。运动学 $(\zeta, \dot{\zeta})$ 遵循近似恒定速度模型。具体来说，给定当前属性 $x$ ，下一状态 $x_+$ 的分布为【17】：

$f_{S,+}(x_+|x, \ell) = \mathcal{N}(x_+; F x + b, Q),$

其中，

$\begin{bmatrix} I_3(T) & 0_{6 \times 3} \\ 0_{3 \times 6} & I_3 \end{bmatrix}, \quad I_3(T) = I_3 \otimes \begin{bmatrix} 1 & T \\ 0 & 1 \end{bmatrix},$

$\begin{bmatrix} 0_{6 \times 1} \\ -\nu^{(\varsigma)} / 2 \end{bmatrix}, \quad Q = \begin{bmatrix} V(\nu^{(\zeta)}, T) & 0_{6 \times 3} \\ 0_{3 \times 6} & \text{diag}(\nu^{(\varsigma)}) \end{bmatrix},$

$V(\nu^{(\zeta)}, T) = \text{diag}(\nu^{(\zeta)}) \otimes \begin{bmatrix} \frac{T^2}{2} \\ T \end{bmatrix} \begin{bmatrix} \frac{T^2}{2} \\ T \end{bmatrix}^T,$

其中 $T$ 是采样周期， $\nu^{(\zeta)}$ 和 $\nu^{(\varsigma)}$ 分别是位置和形状参数的噪声方差的3D向量。半长对数的高斯分布确保它们是非负的。这等价于这些半长的对数正态分布，均值为1，方差为 $e^{\nu^{(\varsigma)}_i} - 1, \ i = 1, 2, 3$ 【17】。

3.2. 多视角测量模型

给定摄像机 $\ldots, C$ 和多目标状态 ${X}$ ，每个 $\mathbf{x} \in {X}$ 被摄像机 $c$ 以概率 $P_D^{(c)}(\mathbf{x};{X})$ 检测到，并生成单视角测量 $z^{(c)} \in Z^{(c)}$ （ $Z^{(c)}$ 是摄像机 $c$ 的测量空间），其似然函数为 $g^{(c)}(z^{(c)}|\mathbf{x})$ ；或以概率 $P_D^{(c)}(\mathbf{x}; {X})$ 未被检测到。在大多数多目标跟踪（MOT）算法中，检测概率被假设为独立于其他（或所有）目标。然而，这一假设在遮挡情况下是不成立的。 $\setminus \{\mathbf{x}\}$ 中的目标可能会遮挡 $\mathbf{x}$ ，导致 $\mathbf{x}$ 的检测概率降低。因此，需要一个合适的检测概率模型来考虑遮挡情况【17】。

3.2.1. 单视角单目标测量模型

在被摄像机 $c$ 检测到的条件下，目标 $\mathbf{x}$ 被观察为二维边界框和特征向量，即 $z^{(c)} = (z_p^{(c)}, z_e^{(c)}, z_f^{(c)})$ ，其中 $z_p^{(c)}$ 是边界框的中心， $z_e^{(c)}$ 是其范围（通过摄像机 $c$ 的图像平面中的宽度和高度对数参数化）， $z_f^{(c)}$ 是特征向量（与外观或身份有关）。由于目标的运动学观测和特征观测是独立的，单视角单目标测量的似然函数 $g^{(c)}(z^{(c)}|\mathbf{x})$ 可以表示为：

$g^{(c)}(z_p^{(c)}, z_e^{(c)}, z_f^{(c)}|\mathbf{x}) = g_b^{(c)}(z_p^{(c)}, z_e^{(c)}|x, \ell) \cdot g_f^{(c)}(z_f^{(c)}|\ell),$

其中 $g_b^{(c)}$ 和 $g_f^{(c)}$ 分别是边界框和特征测量的似然函数。

边界框测量 $z_p^{(c)}, z_e^{(c)})$ 是边界框 $\Phi^{(c)}(x)$ 的噪声版本，该边界框在摄像机 $c$ 的图像平面中包围目标 $\ell)$ ，可以通过投影矩阵分析计算，详见【55】。因此， $z_p^{(c)}, z_e^{(c)})$ 的似然函数为【17】：

$g_b^{(c)}(z_p^{(c)}, z_e^{(c)}|x, \ell) = \mathcal{N}\left(\begin{bmatrix} z_p^{(c)} \\ z_e^{(c)} \end{bmatrix}; \Phi^{(c)}(x), \text{diag}\left(\begin{bmatrix} \nu_p^{(c)} \\ \nu_e^{(c)} \end{bmatrix}\right)\right),$

其中 $\nu_p^{(c)}$ 和 $\nu_e^{(c)}$ 分别是边界框中心和范围（对数）的噪声方差。

特征测量向量 $z_f^{(c)}$ 捕捉目标的视觉外观，例如颜色直方图、HSV 特征、深度学习特征。由于视觉特征相对稳定或随时间缓慢变化【9】，它们可用于目标识别。然而，视觉特征可能会突然变化【4】，且并不总是可靠的【9】。因此，视觉特征模型通常包含多种观测模式【4】。一般而言，我们使用具有两种模式的 $z_f^{(c)}$ 的似然函数：一种强模式用于捕捉稳定的缓慢变化，另一种弱模式用于捕捉突变。具体来说，

$g_f^{(c)}(z_f^{(c)}|\ell) \propto \sigma s_f(z_f^{(c)}, \alpha(\ell, c)) + \bar{\sigma} s_f(z_f^{(c)}, \bar{\alpha}(\ell, c)),$

其中， $s_f$ 是一个与其参数之间的相似度单调递增的非负函数； $\alpha(\ell, c)$ 和 $\bar{\alpha}(\ell, c)$ 分别是稳定和不稳定模式的标称特征向量，对应的权重为 $\sigma$ 和 $\bar{\sigma}$ 。此外，参照【36】，特征向量的缓慢变化通过在每个时间步自适应地更新标称特征来建模：

$\alpha^{(\ell, c)}_+ = \varpi_0 \alpha^{(\ell, c)} + (1 - \varpi_0) z_f^{(c)},$

其中 $\varpi_0$ 是控制观测数据对标称特征贡献的权重。实质上， $\alpha(\ell, c)$ 是带有动量 $\varpi_0$ 的观测特征的指数移动平均。对象 $\ell$ 在摄像机 $c$ 上的初始特征 $\alpha(\ell, c)$ 可以是初始化时测量得到的特征，或者在初始检测失败时采用某些先验值。

3.2.2. 单视角多目标测量模型

来自摄像机 $c$ 的测量集 $Z^{(c)}$ 是目标源测量和独立虚假阳性（或杂波）的叠加。假设多目标状态 $\mathbb{X}$ 条件下，目标源测量是统计独立的【51】。虚假阳性通常用强度函数 $\kappa^{(c)}$ 表示，其中虚假阳性的数量服从平均值为 $\langle \kappa^{(c)}, 1 \rangle$ 的泊松分布，单个虚假阳性根据 $\kappa^{(c)} / \langle \kappa^{(c)}, 1 \rangle$ 独立同分布，其中 $\langle f, g \rangle = \int f(x) g(x) \, dx$ 。在大多数多目标跟踪（MOT）算法中， $\kappa^{(c)}$ 通常被假设为常数并且已知。然而，它也可以在多目标状态估计时动态估计，但需要额外的计算【56】。

为了处理未知的数据关联，需要考虑不同的目标-测量映射。在时间 $k$ 时，摄像机 $c$ 的关联映射是一个映射 $\gamma^{(c)}: \mathcal{L} \to \{-1, \ldots, |Z^{(c)}|\}$ ，每个标签最多可以映射到一个测量，其中 $Z^{(c)}|$ 表示 $Z^{(c)}$ 的基数【51】。对于标签 $\ell$ ， $\gamma^{(c)}(\ell) = -1$ 表示一个不存在的目标， $\gamma^{(c)}(\ell) = 0$ 表示摄像机 $c$ 的漏检，而 $\gamma^{(c)}(\ell) > 0$ 表示标签 $\ell$ 在摄像机 $c$ 上生成测量 $z_{\gamma^{(c)}(\ell)}^{(c)}$ 的情况。令 $\Gamma^{(c)}$ 表示所有关联映射的集合， $\mathcal{L}(\mathbb{X})$ 表示多目标状态 $\mathbb{X}$ 的标签集合，而 $\mathcal{L}_{\gamma^{(c)}} \equiv \{ \ell : \gamma^{(c)}(\ell) \geq 0 \}$ 是 $\gamma^{(c)}$ 的有效标签集。然后，摄像机 $c$ 的单视角多目标测量似然为【51】：

3.2.3. 多视角多目标测量模型

考虑到如果标签 $\ell$ 不存在，则 $\gamma^{(1)}(\ell) = \cdots = \gamma^{(C)}(\ell) = -1$ ，我们将多视角关联映射定义为关联映射的元组 $\gamma \equiv (\gamma^{(1:C)})$ ，其中对于任何摄像机 $c$ ，如果 $\gamma^{(c)}(\ell) = -1$ ，则对所有摄像机 $c$ 都有 $\gamma^{(c)}(\ell) = -1$ 。这意味着 $\gamma: \mathcal{L} \to \{-1\}^C \cup (J^{(1)} \times \cdots \times J^{(C)})$ ，其中 $J^{(c)} \equiv \{0, \ldots, |Z^{(c)}|\}$ 。

令 $\Gamma$ 表示多视角关联映射的空间， $\equiv (Z^{(1:C)})$ 表示所有摄像机的测量集合，假设在条件 $\mathbb{X}$ 下，这些组成集是相互独立的，则多视角多目标测量的似然函数为【52】：
在这里插入图片描述

3.3. 贝叶斯多视角多目标跟踪滤波器

在贝叶斯估计中，多目标滤波密度是当前多目标状态在给定观测历史条件下的概率密度。它包含了所有关于多目标状态的统计信息，基于观测数据和由多目标转移密度 $\mathbb{f}(\cdot|\cdot)$ 以及观测似然 $\mathbb{g}(\cdot|\cdot)$ 描述的先验信息。通过联合多目标 (JoM) 或边缘多目标 (MaM)，包括标记边缘多目标估计，可以从多目标滤波密度中确定多目标状态/轨迹估计【57,58】。由于计算上的可行性，后者通常被使用。MaM/标记边缘多目标估计是在给定最可能的基数/标签集的条件下最可能（或期望）的多目标状态【57,58】。

多目标滤波密度 $\pi$ 可以通过贝叶斯递归向前传播到下一时刻：

$\pi_+({X}_+) \propto \mathbb{g}(Z_+|{X}_+) \int {f}_+({X}_+|{X})\pi({X}) \delta {X}.$

这种方法不仅适用于具有独立运动和检测观测的目标，也适用于更通用的模型，包括细胞有丝分裂模型【7】、社会力模型【59】、检测前跟踪模型【6】，以及合并测量【60】。它还提供了融合不同类型测量的能力，例如将检测前跟踪测量与检测结果融合，只需将它们的似然相乘即可。

（精确的）贝叶斯多目标跟踪滤波器（公式9）将满足所有多目标跟踪的功能需求。将合适的多目标动态和观测模型整合到多目标滤波密度中，使得滤波器能够从观测数据中初始化/终止/重新识别轨迹，解决多视角数据关联和遮挡问题。不幸的是，由于内存需求和计算资源的指数增长，精确实现是不可行的。现有的近似方法，为了在通用应用中提高速度，妨碍了如轨迹初始化/重新识别和遮挡解决等多目标跟踪功能。

4. 近似多视角多目标跟踪滤波器

本节介绍了一种近似的多视角多目标跟踪（MV-MOT）滤波器，通过使用自适应生成模型实现自动轨迹初始化/重新识别和遮挡解决。该模型考虑了重新出现的目标，并采用高精度几何遮挡模型。

在4.1节中，我们介绍了一种常用的贝叶斯MV-MOT滤波器（公式9）的近似方法，该方法涉及广义标记多伯努利（GLMB）近似以实现解析上的可行性，并截断所得的GLMB组件以实现数值上的可行性【17】。在4.2节中，我们开发了一种基于3D目标在摄像机平面上的投影的高精度且可行的遮挡模型，该模型可以处理完全/部分遮挡。在4.3节中，我们详细介绍了一种自适应生成模型，以实现轨迹初始化，并校正GLMB截断以实现重新识别。

4.1. 多视角GLMB递归

本小节概述了贝叶斯MV-MOT滤波器的两步近似。首先考虑通过GLMB形式的多目标滤波密度 $\pi$ 的近似：

$\hat{\pi}(\mathbb{X}) = \delta_{|\mathbb{X}|} [|\mathcal{L}(\mathbb{X})|] \sum_{I,\xi} \omega^{(I,\xi)} \delta_I [\mathcal{L}(\mathbb{X})] \left[ p^{(\xi)} \right]^\mathbb{X},$

其中： $\in \mathcal{F}(L)$ ，表示 $L$ 的所有有限子集的类； $\xi \in \Xi$ ，表示多视角关联映射历史 $\gamma_{1:k}$ 的空间；每个 $\omega^{(I,\xi)}$ 是一个非负权重，满足 $\sum_{I,\xi} \omega^{(I,\xi)} = 1$ ；每个 $p^{(\xi)}(\cdot, \ell)$ 是 $X$ 上的概率密度。权重 $\omega^{(I,\xi)}$ 可以解释为假设 $(I,\xi)$ 的概率，在条件 $(I,\xi)$ 下， $p^{(\xi)}(\cdot, \ell)$ 是 $\ell \in I$ 属性的概率密度。GLMB完全由其参数表征，因此我们采用简写形式：

$\hat{\pi} = \left\{ (\omega^{(I,\xi)}, p^{(\xi)}) : (I,\xi) \in \mathcal{F}(L) \times \Xi \right\}.$

备注1： GLMB基数分布（我们从中确定MaM估计器的最可能基数 $n^*$ ）为：

$\text{Prob}(|\mathbb{X}| = n) = \sum_{I,\xi} \omega^{(I,\xi)} \delta_n [|I|].$

为了提高效率，我们不计算最可能的多目标状态，而是从 $p^{(\xi^*)}(\cdot, \ell)$ 中计算每个 $\ell \in I^*$ 的估计状态，其中 $(I^*, \xi^*)$ 是最可能的假设，使得 $I^*| = n^*$ 。

GLMB类是多目标密度的多功能家族，因为它在贝叶斯递归（公式9）下是闭合的，并且对于常用的多目标系统模型，具有线性复杂度的有效近似【52】。具体来说，对于

$P^{(1:C)}_D (\mathbb{x}; \mathbb{X}) = P^{(1:C)}_D (\mathbb{x}),$

如果当前时刻的多目标滤波密度是GLMB，那么在下一时刻它仍然是GLMB，由MS-GLMB递归给出【52】：

$\hat{\pi}_+ = \Omega_+ (\hat{\pi}; P^{(1:C)}_{D,+}, \mathbb{f}_{B,+}),$

其中 $\mathbb{f}_{B,+} \equiv \left\{ (r^{(\ell)}_{B,+}, p^{(\ell)}_{B,+}) \right\}_{\ell \in B^+}$ 表示生成模型的参数。虽然GLMB组件的数量随时间呈指数增长，但可以使用多维排序分配【61】或吉布斯采样【62】最小化 $L 1$ 误差来截断它们。不幸的是，当

$P^{(1:C)}_D (\mathbb{x}; \mathbb{X}) \neq P^{(1:C)}_D (\mathbb{x})$

如我们遮挡模型所示， $\pi_+$ 不是GLMB，并且通常在计算上是不可行的。

在【17】中，针对具有一般 $P^{(1:C)}_D (\mathbb{x}; \mathbb{X})$ 的遮挡模型，开发了一种近似多视角GLMB (MV-GLMB) 滤波器，通过结合 $P^{(1:C)}_D (\mathbb{x}; \mathbb{X})$ 的分段近似与通过吉布斯采样的重要性采样。近似的GLMB滤波密度通过MV-GLMB递归传播：

$\hat{\pi}_+ = \hat{\Omega} (\hat{\pi}; P^{(1:C)}_{D,+}, \mathbb{f}_{B,+}),$

该方法在【17】的算法2中总结，扩展了MS-GLMB滤波器以解决 $P^{(1:C)}_D (\mathbb{x}; \mathbb{X}) \neq P^{(1:C)}_D (\mathbb{x})$ 的问题。

备注2：GLMB滤波密度可以通过在每个滤波周期后仅保留最佳组件来进一步近似。这种近似方法仅使用最可能的（多传感器）测量到轨迹分配，这在概念上类似于全局最近邻（GNN）跟踪器的策略【2】。尽管这种方法显著提高了处理速度，但预期性能会下降，特别是在低信噪比场景下（参见5.3.2节中的消融研究）。

图2. 提出的多视角多目标跟踪（MOT）滤波器示意图
自适应生成模型和遮挡模型实现MOT功能

图2展示了我们新的自适应生成模型和遮挡模型如何集成到MV-GLMB滤波器中，以实现（自动）轨迹初始化、轨迹重新识别、轨迹终止和遮挡处理的多目标跟踪功能。下一小节将详细介绍所提出的遮挡模型，而生成模型参数 $\{(r^{(\ell)}_B, p^{(\ell)}_B)\}_{\ell \in B^+}$ 的自适应估计将在4.3节中进行说明。

4.2 遮挡建模

与其使用外部遮挡处理模块来提供更好的轨迹，贝叶斯多目标跟踪（MOT）滤波器通过一个遮挡模型来处理遮挡，该模型由目标的检测概率描述。在存在遮挡的情况下，模型越准确，跟踪结果越好。文献[17]中提出了一种遮挡模型，在该模型中，位于其他目标阴影区域（相对于摄像机视线）的目标的检测概率被赋予较小的值。虽然该模型对全遮挡情况很准确，但它没有解决部分遮挡的问题，在部分遮挡的情况下，检测器仍然有很高的检测目标的概率。在本小节中，我们提出了一种新的遮挡模型，该模型可以处理部分（和全）遮挡。我们的模型基于被遮挡目标和遮挡目标在摄像机图像平面上边界框的重叠面积比例。重叠面积越大，被遮挡目标的检测概率越低。注意，一个目标只能被其前方的目标（即更靠近摄像机的目标）遮挡，让 $Fr^{(c)}(\mathbf{x}; \mathbf{X})$ 表示相对于摄像机 $c$ ，在 $\mathbf{X}$ 中位于 $\mathbf{x} \in \mathbf{X}$ 前方的目标子集。然后， $\mathbf{x}$ 的遮挡得分由下式给出：

$O^{(c)}(\mathbf{x}; \mathbf{X}) = \frac{\text{Area}\left(\Phi^{(c)}(\mathbf{x}) \cap \left(\bigcup_{\mathbf{x}' \in Fr^{(c)}(\mathbf{x}; \mathbf{X})} \Phi^{(c)}(\mathbf{x}')\right)\right)}{\text{Area}(\Phi^{(c)}(\mathbf{x}))}, \quad (13)$

其中 $\Phi^{(c)}(\mathbf{x}) = \Phi^{(c)}(x)$ 对 $\mathbf{x} = (x, \ell)$ ，而 $\text{Area}(S)$ 是二维形状 $S$ 的面积。由于目标被遮挡得越多，检测到它的可能性越小，我们使用以下检测概率：

$P_D^{(c)}(\mathbf{x}; \mathbf{X}) = \max(\epsilon, 1 - \epsilon - O^{(c)}(\mathbf{x}; \mathbf{X})), \quad (14)$

以将其限制在 $\epsilon$ 和 $\epsilon$ 之间。根据该模型给定摄像机的一些示例检测概率值显示在图3中。

备注3：子集 $Fr^{(c)}(\mathbf{x}; \mathbf{X})$ 可以通过比较目标到摄像机 $c$ 的距离来确定。或者，假设所有目标都在同一水平面上，我们可以比较目标在摄像机 $c$ 平面上的边界框的低底角：低底角较低的目标更靠近摄像机。

图3. 轨迹索引示意图
为了说明，轨迹按距离摄像机从近到远进行索引。轨迹4与其他轨迹没有重叠，因此其检测概率最大。轨迹1和2与其他轨迹重叠，但由于它们更靠近摄像机（即较低的底角），因此它们也具有最大的检测概率。轨迹6与轨迹5重叠，但轨迹5由于更靠近摄像机而具有更高的检测概率。

4.3 自适应生成建模

尽管MV-GLMB滤波器可以提供自动轨迹初始化和重新识别，但它需要结合准确的先验生成模型（随时间变化）和谨慎的近似。在本小节中，我们开发了一种可行的技术来在线估计生成模型并修正GLMB截断过程，以实现轨迹初始化和重新识别。

4.3.1 自适应生成模型参数

在文献[54]中，开发了一种高效技术，用于估计LMB生成模型参数 $\{(r_{B,+}^{(\ell+)}, p_{B,+}^{(\ell+)})\}_{\ell \in B^+}$ （见3.1节），使用当前的多传感器测量。这种方法寻求一个能够很好地拟合多摄像机测量 $Z$ 的经验LMB生成模型。给定当前的GLMB滤波密度（公式11），假设多摄像机测量 $Z$ 是根据多视角关联映射 $\gamma \circ: B^+ \to \{-1\}^C \sqcup (J^{(1)} \times \cdots \times J^{(C)})$ 从新的生成目标生成的。那么，最适合的经验LMB模型由[54]给出。

$\xi^{(c)}(I) = \{\gamma^{(c)}(\ell) : \ell \in I\}; \quad p_{B,0}(x, \ell)$
是一个规定的先验生成概率密度}; $\quad \psi_{Z,B}^{(j^{(1:C)})}(x, \ell)$ 是方程 (7) 中的 $\psi_{Z,X}^{(j^{(1:C)})}(x, \ell)$ 并且 $P_{D,B}^{(c)}$ 是一个规定的（常数）检测概率。单视图单目标测量似然 $g_f^{(c)}(z_f^{(c)} | \ell)$ 在方程 (2) 中被设为一个均匀分布（因此，在生成模型估计中只使用边界框测量）。

经验LMB生成模型（方程15）完全由多视角关联映射 $\gamma$ 参数化。该生成模型将大量LMB模型参数的先验知识减少到仅四个规定参数 $r_B^{\ast,+}$ ， $\lambda_B^{+}$ （通常设为1）， $p_{B,0}(x, \ell)$ 和 $P_{D,B}$ 。直观地说，良好拟合的经验LMB的组成部分应该具有显著的存在概率。

备注4：注意，在这项工作中，我们使用多视角关联映射 $\gamma = (\gamma^{(1:C)})$ 代替文献[54]中的注入 $θ_B: J^{(1)} \times \cdots \times J^{(C)} \to B^+$ 。关键区别在于 $\gamma$ 约束每个单摄像机检测最多来自一个目标（参见3.2.2节）。相反， $θ_B$ 放宽了这一约束，允许每个单摄像机检测来自多个目标，这可能导致虚假轨迹初始化增加，特别是对于大面积场景。然而，这一放宽使得作者能够开发一种Gibbs采样器来计算一个良好拟合的（由 $θ_B$ 参数化的）经验LMB [54]。由于文献[54]中的Gibbs采样器无法适应每次检测最多一个目标的约束，我们使用聚类方法来确定一个良好拟合的（由 $\gamma$ 参数化的）经验LMB。直观地说，每个摄像机由同一目标生成的检测在投影到地面平面时会聚集在目标的位置附近。因此，通过在地面平面中聚类（单摄像机）检测来构建的 $\gamma$ ，使得每个聚类对应于由一个目标生成的检测，能够很好地拟合多摄像机测量 $Z$ 。注意，由于 $\gamma$ 是多摄像机关联映射，每次检测最多只能属于一个聚类。

聚类算法描述如算法1所示。多视角关联映射 $\gamma$ 表示为一个分配矩阵，每行由属于一个聚类的测量指数组成。第一步，生成一组初始聚类中心，类似于流行的均值漂移聚类算法。在第二步，通过顺序附加每行相关测量指数构建 $\gamma$ 。伪代码中，“TransformToGroundPlane” 函数是一个将二维测量转换为其地面平面位置的单应变换。“dist”函数计算地面平面中点之间的距离。“ComputeCentroid”函数以一组点和指定用于计算中心点的点索引列表为输入，返回地面平面中的中心点。

4.3.2. 轨迹初始化和重新识别

出生模型使得MV-GLMB递归(12)能够自动初始化新的轨迹，并且原则上可以重新识别重新出现的轨迹。所有曾经存在的标签（截至当前时间）都被捕捉在某些（未截断的）GLMB滤波密度的组件中。当新数据到达时，MV-GLMB递归会相应地更新其存在概率，以便场景中的标签具有高存在概率，反之亦然。然而，在实践中，组件截断会永久删除存在概率较低的标签，这意味着即使新数据支持它们的重新出现，它们也无法恢复，并且每个LMB出生参数在 $\{(\hat{r}^{(\mathcal{l})}_{\gamma}, \hat{p}^{(\mathcal{l})}_{\gamma})\}_{\mathcal{l} \in \mathcal{L}_{\gamma}}$ 中可能对应于新的轨迹或重新出现的轨迹。

为了恢复滤波器的轨迹重新识别功能，我们建议保留那些在GLMB截断中将被删除的轨迹，称之为暂时终止(TT)轨迹，并将 $\{(\hat{r}^{(\mathcal{l})}_{\gamma}, \hat{p}^{(\mathcal{l})}_{\gamma})\}_{\mathcal{l} \in \mathcal{L}_{\gamma}}$ 的子集重新标记为与TT轨迹在视觉特征上最匹配的标签。TT轨迹保留其对应标签在最高加权GLMB组件中的视觉特征，并且只有在规定时间内未重新识别时才会被永久删除。请注意，在重新标记后，我们会从TT集合中删除相应的TT轨迹。带有重新标记LMB出生模型的GLMB递归将根据接收到的多摄像机数据更新重新出现和新出生轨迹的存在概率。

可以使用最优分配来匹配活动标签 $\mathcal{L}_{\gamma}$ 和TT轨迹，只有匹配分数超过召回阈值 $\tau_R$ 的标签才会重新标记。标签 $\mathcal{l}^+ \in \mathcal{L}_{\gamma}$ 与特征 $\alpha^{(\mathcal{l}, c)}$ 的TT标签 $\mathcal{l} = (s, \iota)$ 的匹配分数定义为

$R_{\mathcal{l}_+, \mathcal{l}} = \frac{k - s}{e(\mathcal{l})} \max_{c \in \{1: C\}} s_f\left( f\left( z^{(c)}_{\gamma^{(c)}(\mathcal{l}_+) }\right), \alpha^{(\mathcal{l}, c)} \right), \quad (18)$

其中 $e(\mathcal{l})$ 表示标签 $\mathcal{l}$ 被包含在GLMB密度中但不是TT轨迹的次数， $f(z^{(c)}_j)$ 表示来自摄像机 $c$ 的第 $j$ 次测量的特征组件， $s_f(\cdot, \cdot)$ 是两个特征向量之间的相似度度量，参见(12)。公式(18)中的时间比率的依据是标签在GLMB密度中存在的时间越长，即使是TT，它仍然存在的可能性越大。
算法1

soulmode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译】Track initialization and re-identification for 3D multi-view multi-object tracking

我们提出了一种仅使用单目相机的2D检测进行3D多目标跟踪（MOT）的解决方案，该方案能够自动启动/终止跟踪，同时解决跟踪对象的出现-再出现以及遮挡问题。此外，当相机重新配置时，该方法不需要重新训练检测器，只需更新重新配置相机的相机矩阵。我们的方法基于贝叶斯多目标公式，将轨迹启动/终止、重识别、遮挡处理和数据关联集成到单一的贝叶斯滤波递归中。然而，由于（多目标）滤波密度中的项数呈指数增长，利用所有这些功能的精确滤波器在数值上是不可行的，而现有的近似方法在速度上做了一些功能的权衡。
复制链接

扫一扫