『论文阅读|2024 WACV 多目标跟踪Deep-EloU|纯中文版』-CSDN博客

本文链接：https://blog.csdn.net/dally2/article/details/135777792

论文阅读|2024 WACV 多目标跟踪Deep-EloU|纯中文版

摘要
1 引言（Introduction）
2 相关工作（Related Work）
3 提出的方法（Proposed Methods）
4 实验和结果（Experiments and Results）
5 总结

论文题目： Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports

论文特点： 作者提出了一种迭代扩展的 ExpansionIoU 和深度特征关联方法Deep-EIoU，用于体育场景中的多目标跟踪，旨在解决非线性、不规则运动、相似外观的在线短时多目标跟踪问题，实验表明，提出的方法对于提高跟踪鲁棒性是有效的，缺点就是该方法目前仅适用于短时跟踪，可能无法解决目标短暂消失入镜重识别问题，实时性较差。

论文下载链接： https://arxiv.org/abs/2306.13074。

摘要

基于深度学习的目标跟踪算法推动了多目标跟踪算法的显著进步。然而，目前的跟踪方法主要关注行人或车辆这类简单、规则的运动模式。这就为运动员等非线性、不规则运动目标的跟踪算法留下了空白。此外，当物体运动违反卡尔曼滤波器的线性假设时，在最近的跟踪算法中依赖卡尔曼滤波器就会出现问题。为了克服这些问题，Huang等人提出了一种新颖的在线鲁棒多目标跟踪方法，名为ExpansionIoU （Deep-EIoU），主要用于运动场景的多目标跟踪。与传统方法不同的是，放弃了卡尔曼滤波器的使用，而是利用迭代扩展 ExpansionIoU 和深度特征来实现运动场景中的鲁棒跟踪。这种方法无需采用更强大的检测器就能实现卓越的跟踪性能，同时还能保持在线跟踪过程。提出的方法在跟踪不规则运动物体方面效果显著，在 SportsMOT 数据集上获得了 77.2% 的 HOTA 分数，在 SoccerNet-Tracking 数据集上获得了 85.4% 的 HOTA 分数。在涵盖各种运动场景的各种大规模多目标跟踪基准测试中，该方法的表现优于之前所有最先进的跟踪器。代码和模型可在 https://github.com/hsiangwei0903/Deep-EIoU 上获取。

1 引言（Introduction）

多目标跟踪（MOT）是一项基本的计算机视觉任务，旨在跟踪视频中的多个物体，并在每一帧中对其进行定位。最近的大多数跟踪算法 [33, 1, 28, 4]，主要侧重于行人或车辆跟踪，在公共基准测试中取得了巨大进步 [19, 8, 11]。然而，这些最先进的算法在难度较高的数据集上，尤其是那些包含体育场景的数据集上表现不佳[7, 6, 36]。鉴于自动战术分析和运动员运动统计（包括跑步距离和移动速度）等应用对体育分析的需求日益增长，体育多目标跟踪领域需要更多关注。

与行人或车辆的多目标跟踪不同，运动场景中的 MOT 具有更高的难度，由于多种原因，包括如图 2 所示的运动场景中高强度运动造成的严重遮挡、如图 3 所示的同队球员之间因球衣颜色相同而产生的相似外观，以及一些运动动作（如篮球中的交叉步、足球中的滑铲或排球中的扣球）造成的不可预测运动。由于上述原因，以往利用外观-运动融合[34, 28]或单纯基于运动[33, 5, 4]方法的跟踪器在体育场景中的几个主要 MOT 基准[6, 7]上难以进行稳健跟踪。

为了解决这些问题，在本文中提出了一种新颖、稳健的在线多目标跟踪算法，专门针对具有不规则和不可预测运动的物体而设计。实验结果表明，该算法能在跟踪过程中有效处理运动员的不规则和不可预测运动。在两个大型公共基准测试[7]中，该算法的性能优于所有跟踪算法，而且在保持算法在线的同时，没有引入额外的计算损失。因此，在本文中提出了三个主要贡献：

提出了一种简单而有效名为 ExpansionIoU 的新型关联方法，以专门应对体育跟踪中的挑战，可用于跟踪具有不规则运动和相似外观的物体。
提出的迭代扩展 ExpansionIoU 进一步利用了深度特征关联，可用于体育场景中稳健的多目标跟踪。
所提出的方法在 SportsMOT [7] 数据集上实现了 77.2 HOTA，在 SoccerNet-Tracking 数据集 [6] 上实现了 85.4 HOTA，大大优于之前所有的跟踪算法。

2 相关工作（Related Work）

2.1 基于卡尔曼滤波器的多目标跟踪算法（Multi-Object Tracking using Kalman Filter）

现有的大多数跟踪算法 [33, 4, 5, 28, 35, 30, 14, 12, 13, 29] 都采用卡尔曼滤波 [15] 作为物体运动建模的方法。卡尔曼滤波器可将物体运动视为一个线性动态系统，并可根据物体在前几帧的运动情况预测其下一帧的位置。卡尔曼滤波器在多个公共基准测试中展示出了多目标跟踪的有效性 [19, 8, 23]。然而，由于卡尔曼滤波器的线性运动和高斯噪声假设，卡尔曼滤波器可能无法跟踪非线性运动的物体。基于这个原因，OC-SORT [5] 提出了几种方法，包括以观测为中心的重新更新，在跟踪过程中修改卡尔曼滤波器的参数，防止在未跟踪物体时误差累积。该方法在多个公共数据集上展示出跟踪不规则运动物体的有效性[23, 7]。

2.2 基于定位的多目标跟踪算法（Location-based Multi-Object Tracking）

在高帧率输入视频序列中，由于帧率较高，物体在帧间的位置偏移相对较小，因此位置信息成为帧间关联的可靠线索。有几种方法[22, 14]利用边界框距离作为边界框关联的损失，而最近的一些工作[31]则利用不同的 IoU 计算方法，包括 GIoU [20]、DIoU [38] 和 BIoU [31]，来进行帧间边界框关联，这些方法在多目标跟踪中也展示出了有效性。

2.3 基于外观的多目标跟踪（Appearance-based Multi-Object Tracking）

随着近年来物体 ReID 模型[39]和训练技巧[17]的发展和改进，许多跟踪算法都将 ReID 纳入了关联过程。有些方法使用联合检测和嵌入架构 [35, 27]，同时进行检测和物体嵌入，以实现实时跟踪。而其他方法[28, 1]则应用其他独立的 ReID 模型来提取检测的嵌入特征进行关联。基于外观的跟踪方法通过额外的外观线索来提高跟踪的鲁棒性，但有时外观线索可能会因为一些原因而不可靠，这些原因包括遮挡、被跟踪物体之间的外观相似、物体旋转或光照条件导致的外观变化等。

2.4 体育运动中的多目标跟踪（Multi-Object Tracking in Sports）

在团队运动中，人们对球员在比赛中的动作进行了大量监控研究。这种监测不仅能自动记录比赛统计数据，还能让体育分析人员从视频场景理解的角度获得全面信息。与行人的 MOT 不同[19]，体育场景中的 MOT 具有更高的挑战性，原因包括目标的运动速度更快、不规则，同队球员的外观相似，以及体育运动的激烈特点导致的更严重的遮挡问题。最近的大多数体育运动中的移动定位方法都采用了通过检测进行跟踪的模式，并整合了一个重新识别网络来生成用于关联的嵌入特征。

Vats 等人[25] 结合球队分类和球员识别方法，提高了曲棍球的跟踪性能。同样，Yang 等人[32] 和 Maglo 等人[18] 的研究表明，通过定位场地和球员，足球的跟踪结果可以更加准确。此外，Sang ̈ uesa 等人[21] 利用人体姿势信息和动作作为嵌入特征来增强篮球运动员的跟踪。Huang 等人[14] 则结合 OC-SORT [5] 和基于外观的后处理技术，对篮球、排球和足球等多种运动场景进行跟踪[7]。

3 提出的方法（Proposed Methods）

提出的方法遵循经典的 "跟踪-检测 "范式，无需使用未来信息也能实现在线跟踪。首先在每个输入帧上应用目标检测器 YOLOX，然后根据提取的外观特征之间的 相似性 以及小轨迹和检测之间的 ExpansionIoU 等几条线索进行关联。在得到关联损失后，采用匈牙利算法来获得小轨迹和检测之间的最佳匹配。

3.1 基于外观的关联（Appearance-based Association）

外观相似度是帧间物体关联的有力线索，相似度可以通过外观特征之间的余弦相似度来计算，也可以用来过滤掉一些不可能的关联。根据余弦相似度可以直接得到外观关联的损失Cost_A，计算公式如下：
$Cost_A = 1 - Cosine Similarity = 1 - \frac{a \cdot b}{ \left \| a \right \| \left \| b\right \| }$
这里，a 和 b 分别是小轨迹的外观特