多目标跟踪:文献综述

本体特征：以KLT为例，KLT（Kanade-Lucas-Tomasi）光流跟踪是一种经典的光流算法，用于估计图像中像素的运动。需假设在一个小的局部区域内，相邻帧之间的像素强度保持不变，即图像像素为最优特征范围，一般与其他技术相结合。因为其可以与运动结合，利用光流对运动信息编码。光流的一个特殊应用是发现拥挤场景中的人群运动模式

区域特征：区域特征相比本体特征提取范围更广（如边界框），分为三种类型：a)零阶型，b)一阶型，c)up-to-second

零阶：最广泛使用，表示不比较像素的值，如颜色直方图和原始像素模版

一阶：表示计算一次像素之间的差异值，如基于梯度表示和水平集公式

up-to-second：如区域协方差矩阵

其他：Taking depth、概率占用图、步态特征、DCNN、ColorNames描述符、CNN的深度特征、点云特征等

总体来说，不同的视觉表示方法各有优缺点，使用时还需要考虑具体环境

3.1.2、统计测量

根据视觉表示，可以依赖单个线索或多个线索来计算不同观测值之间的相似度

单个线索：可以将距离转化为相似度或直接计算亲和力

多个线索：不同类型的线索可以互补，使模型更具鲁棒性，分为5种融合策略

boost：通过基于boosting的算法从特征池中依次选择一部分特征

连接：将不同类型的特征连接

求和：从不同特征中获取亲和力值，并用权重平衡这些值

生产：通过数值相乘来产生综合亲和力

级联：使用一种使用各个类型的视觉表示的级联方式

3.2、运动模型

捕获对象的动态行为，估计对象在未来帧中的潜在位置，从而减少搜索空间

3.2.1、线性运动模型

采用匀速假设，有三种构造方式

速度平滑：在连续帧中强制对象速度值平滑变化来建模，通过在N帧和M轨迹上，计算某一位置时的速度和下一刻的速度差的平方求和

位置平滑：直接强制观察位置和估计位置之间的差异。在估计阶段同时考虑向前运动和向后运动，令尾部位置和头部位置列拼接，再以头部的协方差矩阵为参数得到正态分布N1，再令头部位置和尾部位置列拼接，以尾部的协方差矩阵为参数得到正态分布N2，通过N1和N2相乘线性运动模型的亲和力

加速度平滑：给定观测轨迹{Ok}，在k时刻{Sk}的运动概率分布建模为

分别计算位置（Xk）、速度（Vk）、加速度（ak）的零均值高斯分布然后连乘

3.2.2、非线性运动建模

有些情况线性运动建模不能处理，因此提出非线性运动建模来获得更精确的轨迹间运动亲和力

如左图所示，通过线性运动建模分别得到的T1和T2之间有较低的连接概率，T1尾部和T2头部之间有较大空隙，这时引入非线性运动建模，如右图，可以用轨迹条T0解释然后再用线性运动模型求解

3.3、交互模型

捕捉一个对象对其他对象的影响，如行人行走，会避免他人的碰撞（社会力模型）和一群人走过，每个人跟着别人，也引导别人（人群运动模型）

3.3.1、社会力模型

每个对象被认为依赖于其他对象和环境，可以缓解拥挤场景中的性能下降，目标基于对其他物体和环境的观察来确定运动状态，是基于个体力和群体力来建模

个体力：每个个体考虑两种力

忠诚：不改变目标

恒久：不改变动力，即速度和方向

群体力：分为三组

吸引：群体运动时个体间保持紧密

排斥：个体间保持距离

一致：群体间的个体应以相似速度运动

3.3.2、人群运动模型

引入运动模式来降低人群中单个物体的跟踪难度，运动模式分为结构化和非结构化，运动模式可以通过各种方式学习

结构化：表现出集体的时空架构

非结构化：表现出不同的运动模式

3.4、排斥模型

在解决MOT问题的时候为了避免物理碰撞采用的约束，提供多个检测相应和多个轨迹假设，分为两个约束条件：检测级排斥和轨迹级排斥

3.4.1、检测级排斥

不能将同一帧的两个不同的检测响应分配给同一目标，分为“软”和“硬”两种模式

软：通过最小成本项来惩罚违规情况的“软性”建模

硬：通过应用显示约束实现

3.4.2、轨迹级排除建模

通过对两个相近的检测假设具有不同轨迹标签的情况进行惩罚（类似3.4.1节中的“软”模式）

3.5、遮挡处理

重要！！！关键！！！

3.5.1、Part-to-whole

假设被遮挡后仍然有一部分可见，通过观察并利用可见部分来推断整个对象的状态，流行的方法是将整体划分为几个部分，再计算各个部分的关联，若发生咬合，则咬合部位的亲和力会很低。有一种“硬”方式是忽略被遮挡部分，还有一种“软”方式是通过部分关联来恢复部位轨迹。

PS：基于特征点聚类跟踪也采用了该策略

3.5.2、假设和测试

通过假设建议并根据观测结果测试建议来避免遮挡

Hypothesize：将两个具有不同层次和模式的物体综合起来，产生不同的检测假设

test：假设准备好后用于MOT，即2.1节

3.5.3、缓冲和恢复

在遮挡前记住对象状态，在遮挡时缓冲观察结果（如延长轨迹时长），遮挡结束后，根据缓冲的观测值和遮挡前存储的状态恢复物体状态

3.5.4、其他

还有很多，各有优缺，某些情况下多种策略会组合使用

3.6、推理（参考2.1节）

3.6.1、概率推理

通常将对象的状态表示为具有不确定性的分布，跟踪算法的目标是通过基于现有观察的各种概率推理方法来估计目标现状的概率分布（参考2.2.2的在线跟踪）。满足以下条件：第一，通过过去的状态推断当前的状态；第二，观察结果条件独立，即

这两方面分别对应动态模型和观察模型，动态模型对应跟踪策略，观测模型提供了有关对象状态的观察测量。预测步骤是通过过去的推断现在的，即通过动态模型来对最后一个对象状态的空间进行积分来估计当前状态的后验概率分布。更新步骤是根据观察模型下获得的测量值更新状态的后验概率分布。如2.1节所示，通过迭代进行预测和更新来估计物体的状态，然而在实际中依旧有很多问题存在

现提出一些概率推理模型：卡尔曼滤波器、扩展卡尔曼滤波器、粒子过滤器等

3.6.2、确定性优化

确定性优化旨在找到MOT的最大后验（MAP）解决方案。更适合离线跟踪，因此需要提供所有帧的观测值（通常是检测假设），关键是找到对象和轨迹之间的最佳关联。

以下是一些流行方法：二分图匹配，动态规划、Min-cost max-flow网络流、条件随机场、MWIS等

3.6.3、讨论

和概率推理相比，确定性优化或能量最小化更流行，概率推理通常难以推断，而能量最小化可以在合理时间内得到好的解决方案

3.7、总结

不是所有MOT方法都具有所有的组件，一般来说外观、运动和推理是必要的，这些组件之间彼此不正交，可以相结合来运作

4、MOT评价

通过指标和数据集来定量评估MOT方法的性能，一方面，要衡量不同组件和参数对设计最佳系统整体性能的影响，另一方面可以与其他方法直接比较。由于MOT方法大多数采用DBT，通常测量检测性能及跟踪性能，因此采用目标检测指标，指标分为两组评估检测和跟踪

4.1、指标

4.1.1、检测指标

检测指标分为两组：一组衡量准确定，一组衡量精度

准确性：召回率、精度指标、每帧平均误报率（FAF）等

精度：预测检测和基本事实的对齐质量（其实就是预测和现实是否符合）

4.1.2、跟踪指标

根据属性不同分为两组：准确性、精度

准确性：虽然还有一些问题，但仍然是MOT最广泛接受的评估措施

精度：多目标跟踪精度（NOTP）、跟踪距离误差（TDE）、OSPA等，描述了通过边界框重叠或距离跟踪对象的精确程度

4.2、数据集

MOT数据集相比SOT数据集规模更小，且当前数据集更侧重于行人，近年来重心逐渐向多类检测推移

4.3、公共算法

和SOT相比公共程序不多，相比SOT，MOT还任重而道远

4.4、基准结果

列举数据集的公共结果来得到不同方法下的比较，但由于以下原因，这种比较并不公平：

处理模式不同：由于2.2.2节中所说的差异，离线方法可以获得更多的信息

检测假设不同：基于不同检测假设的一种方法尚且有不同的结果，更何况不同方法

方法使用场景不同

为了对比更加严谨，需要修复改变所有组件，这是MOT基准的主要目标（其实就是要尽可能控制变量），尽管存在问题，但由于以下原因，这种对比依旧有价值：

提供了不同方法间的直观比较

可以比较出同一类型的方法的价值

通过这种比较来观察MOT的发展

5、总结

尽管MOT取得很大进展，但仍然存在很多问题

5.1、现存问题

除了数据集（4.2节）和公共算法（4.3节），MOT还存在一个问题是，MOT方法的性能很大程度上取决于对象检测器，相同的方法可能产生具有显著性能差异的结果；另一个问题是，如果在开发MOT解决方案的时候算法过于复杂、有很多参数，就加大了调整方法的难度，一些方法在特定场景中表现良好，但应用于其他场景可能并不乐观（可能是由于在特定视频中训练，不能很好推广的原因）