【目标跟踪 MOT】SORT - SIMPLE ONLINE AND REALTIME TRACKING

最新推荐文章于 2022-09-28 16:02:11 发布

大胃羊

最新推荐文章于 2022-09-28 16:02:11 发布

阅读量850

点赞数

分类专栏：经典论文速读文章标签：目标跟踪自动驾驶计算机视觉

本文链接：https://blog.csdn.net/davidyang_980/article/details/121948282

版权

经典论文速读专栏收录该内容

7 篇文章 4 订阅

订阅专栏

背景知识

卡尔曼滤波
图说卡尔曼滤波，一份通俗易懂的教程
KF主要有两个过程，一个是预测，一个是更新。知道目前的状态信息，根据变量之间的描述相关性的协方差矩阵进行预测，并随着预测去调整协方差矩阵，从而实现用前面的状态来估计后面的状态。
随着提供的状态信息越多，误差范围可以缩小，使得状态区间得以更新，得到更加精确的预测结果，这个过程可以叫信息融合或多传感器融合。
匈牙利算法
带你入门多目标跟踪（三）匈牙利算法&KM算法
匈牙利算法用于解决数据关联问题。匈牙利算法用于解决二分图问题，在目标跟踪中，可以看作两帧之间所有检测框相互匹配的问题。匈牙利算法需要前置的运动模型、外观模型等部件必须进行较为精准的预测，或者预设较高的阈值，只将置信度较高的边才送入匈牙利算法进行匹配，这样才能得到较好的结果。因为其匹配是基于预测结果的。

在这里插入图片描述

方法论总结

检测：使用的是Faster Region CNN (FrRCNN) ，从而输出检测框detections的结果
状态估计：SORT中卡尔曼滤波被用于检测框运动的预测，检测框的状态为检测框中心的横坐标、纵坐标、大小、长宽比。除此之外还有三个变化量信息（也就是加速度的概念），包括检测框中心的横坐标的变化速度、纵坐标的变化速度，检测框大小的变化速度。所以最后用了七个参数来描述状态方程 $\mathbf{x}$ 。实际上就是将帧间的位移假设为线性匀速模型，所以每个目标的状态综合了上述提到的7个信状态值。
数据关联 IOU match：匈牙利算法在本文中用于解决数据关联问题，也就是cost矩阵的分配问题。使用cost矩阵作为目标在当前帧中的预测位置和当前帧检测框之间的IOU。如果小于IOU阈值就被认为无效。使用IOU可以解决短时被遮挡的问题，因为可以把遮挡物和原有目标进行关联，这样遮挡结束后，IOU往往能够保持较大，可以快速恢复关联（前提是遮挡物面积大于目标）。

正式论文部分：

摘要

算法发布于2016年。文章主要解决多目标实时在线跟踪(MOT)问题，尽管只使用了熟悉的技术(如卡尔曼滤波和匈牙利算法)的基本组合用于跟踪组件，但该方法实现了可与最先进的在线跟踪器相媲美的精度。此外，由于我们的跟踪方法的简单性，跟踪器以260 Hz的速率更新，这比其他最先进的跟踪器快20倍以上。

简介

本文提出了一种针对多目标跟踪(MOT)问题的逐检测跟踪框架的精益实现，其中每帧检测对象并表示为边界框。与许多基于批处理的跟踪方法[1,2, 3]相比，这项工作主要针对在线跟踪，其中仅将来自前一帧和当前帧的检测呈现给跟踪器。此外，重点强调了促进实时跟踪的效率，并促进了诸如自动驾驶车辆行人跟踪等应用的更多应用。

MOT问题可以看作是一个数据关联问题，其目标是关联视频序列中跨帧的检测。为了帮助数据关联过程，跟踪器使用各种方法对场景中对象的运动[1, 4]和外观[5，3]进行建模。本文采用的方法是通过观察最近建立的视觉MOT benchmark[6]来实现的。成熟的数据关联技术的复兴，包括多假设跟踪(MHT)[7, 3]和联合概率数据关联(JPDA)[2]，它们占据了MOT基准的许多顶级位置。但没有使用聚合频道滤波（Acf ）[8]，而使用其他跟踪器进行代替的算法，效果也并不差。

对于常规的算法，如何在速度和准确率之间作tradeoff是一个问题。作者则理智与使用较简单的方法达到较好的速度和较高的准确率。
在这里插入图片描述
为了遵循大道至简（Occcam’s Razor）的原则，超越检测单元的外观特征在跟踪的时候会被忽略，只使用包围框的位置和大小来完成运动估计和数据估计。对于短周期和长周期的occulusion也不适用，因为对他们的详细描述会带来我们不想要的复杂情况。作者认为物体重识别形式上的结构复杂性在跟踪框架中是最重要的，因为这会潜在影响实时性的应用。

作者的设计哲学与许多视觉跟踪器相反，不去结合无数的单元来处理各种边缘情况和检测错误。本工作专注于帧与帧之间的高效、可靠的处理。相比于注重于鲁棒性，作者更关注直接解决检测问题本身。通过对比ACF和CNN，这个观点也得到了证实。除此之外，卡尔曼滤波和匈牙利算法被部署，分别用于运动预测和数据关联。本工作仅仅把算法用在了复杂环境下的行人跟踪问题上，但是对比复杂的CNN检测器，本网络对其他类型的物体具有天然的泛化性。

本工作的主要贡献：

我们利用了CNN检测中良好的MOT上下文信息
提出了基于卡尔曼滤波和匈牙利算法的新跟踪算法

文献回顾

略

算法结构

检测

检测部分主要使用Faster Region CNN(FrRCNN)

估计模型

对象模型：适用表示和运动模型把target’s identity传递到下一帧，我们用一个独立于其他物体和摄像机运动的线性恒速模型来近似每个物体的帧间位移。每个目标的状态模型表示如下：
$\mathbf{x}=[u, v, s, r, \dot{u}, \dot{v}, \dot{s}]^{T}$
其中 $u$ 和 $v$ 表示目标中心水平和垂直的位置， $s$ 和 $r$ 分别表示区域尺度和目标包围盒的纵横比。其中，纵横比被认为是恒定的。当检测与目标相关联时，检测到的边界框用于更新目标状态，其中通过卡尔曼滤波框架[14]优化求解速度分量。如果没有与目标相关联的检测，则使用线性速度模型简单地预测其状态而不进行校正。

数据关联

在为现有目标分配检测结果时，通过预测每个目标在当前帧中的新位置，来估计每个目标的包围盒几何形状。然后计算分配代价矩阵，作为每个检测与现有目标的所有预测边界框之间的并集交集( $I O U$ )距离。这个分配过程使用匈牙利算法来解决。除此之外，对于检测到目标重叠小于 $I O U$ 最小的 $IOU_{min}$ .
作者发现使用IOU能够解决目标的短时被遮挡问题。这是因为目标被遮挡时，检测到了遮挡物，没有检测到原有目标，假设把遮挡物和原有目标进行了关联。那么在遮挡结束后，因为在相近大小的目标IOU往往较大，因此很快就可以恢复正确的关联。这是建立在遮挡物面积大于目标的基础上的。

跟踪身份的创建与删除

当物体进入和离开图像时，需要相应地创建或销毁唯一标识。对于创建跟踪器，我们认为任何重叠小于 $IOU_{min}$ 的检测都表示存在未跟踪的对象。在速度设置为零的情况下，使用边界框的几何形状来初始化框架。由于此时没有观测到速度，所以速度分量的协方差被初始化为大值，反映了这种不确定性。此外，新的跟踪器然后经历试用期，其中目标需要与探测相关联，以积累足够的证据，以防止跟踪结果为假阳性(false positive)。
如果 $T_{lost}$ 帧没有检测到跟踪对象，那跟踪就会终止。它可以防止跟踪器数量的无限增长和由于预测持续时间过长而未经探测器校正而导致的本地化错误。在实验中 $T_{lost}$ 一般设为1，两个原因如下。首先，恒定速度模型不能很好地预测真实的动态，并且，我们主要关注的是帧到帧跟踪，其中对象的重新识别超出了本工作的范围。此外，及早删除丢失的目标有助于提高效率。如果物体再次出现，跟踪将以新的身份隐含地恢复。