Kim, Chanho, et al. “Multiple hypothesis tracking revisited.” Proceedings of the IEEE international conference on computer vision. 2015.
Abstract
本文在检测跟踪框架中回顾了经典的多重假设跟踪(MHT)算法。 MHT的成功在很大程度上取决于维持少量潜在假设的能力,而当前可用的精确物体检测器可以促进这一可能性。 我们证明了90年代的经典MHT实现可以惊人地接近标准基准数据集上最新技术的性能。 为了进一步利用MHT在利用高阶信息中的优势,我们介绍了一种针对每个轨迹假设训练在线外观模型的方法。 我们表明,可以通过正则化最小二乘框架高效地学习外观模型,每个假设分支只需要进行一些额外的操作。 我们在流行的按检测跟踪数据集(例如PETS和最近的MOT挑战)中获得了最新的结果。
Introduction
为每个候选目标建立了一个潜在轨迹假设树,从而为数据关联问题提供了系统的解决方案。 计算每个轨迹的可能性,并选择最可能的轨迹组合。 重要的是,MHT非常适合开发诸如长期运动和外观模型之类的高阶信息,因为在计算似然性时可以考虑整个轨迹假设。
MHT已在雷达目标跟踪中流行。 但是,在视觉跟踪问题中,通常认为它很慢且占用大量内存,因此需要许多修剪技巧。MHT本质上是广度优先的搜索算法,因此,其性能在很大程度上取决于能否快速可靠地修剪搜索树中的分支,以保持跟踪假设的数量可管理。
本文认为,MHT方法非常适合当前的视觉跟踪环境。 通过检测跟踪的现代进展以及用于对象外观的有效特征表示的发展为MHT方法创造了新的机会。
首先,我们证明了标准的基于运动的MHT方法的现代表达方式可以与流行的跟踪数据集上的最新方法相媲美。其次,更重要的是,我们证明了MHT可以轻松利用高阶外观信息,而这些信息很难整合到基于一元和成对能量的其他跟踪框架中。我们提出了一种新颖的MHT方法,该方法结合了长期外观建模,by使用深度卷积神经网络的特征提取。
The appearance models are trained online for each track hypothesis on all detections from the entire history of the track
我们利用在线正则化最小二乘实现高效率。 在我们的公式中,训练外观模型的计算成本与假设分支的数量几乎没有依赖性,这使其非常适合于MHT方法
我们的实验结果表明,结合了运动和外观的评分功能在有效且准确地修剪假设空间方面非常有效。使用我们训练有素的外观模型,我们可以将每帧中的有效分支数削减到所有分支的约50%。这使我们能够对运动做出较少限制的假设,并探索更大的假设空间,这也使得MHT对参数选择和试探法不那么敏感。
Related work
Network flow-based methods have recently become a standard approach to visual multi-target tracking due to their computational efficiency and optimality.In recent years, efficient inference algorithms to find the globally optimal solution or approximate solutions have been introduced
缺点:代价高昂,cost function can only contain unary and pairwise terms. Pairwise costs are very restrictive in representing motion and appearance
一种替代方法是定义小轨迹之间的成对成本–可以可靠地计算的短对象轨迹,不幸的是,不能保证可靠的Tracklet的可用性,并且任何错误都会传播到最终解决方案。
Multiple Hypotheses Tracking
使用的是 tracking-detection 框架,观测是bounding box。
k表示最近的帧,Mk表示该帧观测的数量。对于一个给定的轨迹,ik表示该帧的第ik个观测。ik in [0, 1, …Mk],这k个观测结果然后在k帧上定义一个轨迹假设。虚假分配(dummy assignment) it = 0 代表missing observation。二元变量
z
i
z_i
zi表示在最终结果中轨迹假设是否被选中。全局假设是一组不冲突的跟踪假设,即在任何时候都不共享任何测量(measurement)。
MHT中的一项关键策略是通过保持多个假设有效直到数据关联的歧义得到解决,从而延迟数据关联的决策。 MHT维护着多个跟踪树,每棵树代表所有源自单个观察的假设。
关联过程如下:
第一帧有观测1
第k-2帧有观测1 2
第k-1帧有观测1 2 3
第k帧有观测1 2 3 4
前后两帧的观测有门限阈值——gating,超过gating的不作假设
每个观测如果在gating内,作为之前假设的一个分支,否则作为一条起始点,只要符合gating,可以作为多个轨迹的分支,如k-1帧的2同时作为k-2的1 2的下一步分支
在每一帧,从观察中更新轨道树,并对树中的每个轨道进行评分。 然后可以通过解决最大加权独立集问题来找到最佳的非冲突轨迹集(最佳全局假设)。然后,从树中修剪出偏离全局假设太多的分支,并且算法前进到下一帧。
图1的示例的无向图,其中每个轨迹假设是一个节点,一条边连接两个相互冲突的轨迹。 图(a)表示了最近三个帧中每个假设的观察结果。用MWIS方法得出的结果用蓝色标识。
N扫描修剪示例(N = 2)。 蓝色分支包含第k帧的全局假设。 在t = k − 2处进行修剪会删除所有远离全局假设的分支。
图c表示了被修剪后的假设,蓝色代表了最终的测量关联。
Track Tree Construction and Updating
跟踪树封装了从单个观察开始的多个假设。 在每一帧处,为每个观测构造一个新的轨迹树,表示该观测对应于一个新目标进入场景的的可能性。
以前的存在的跟踪树也将根据当前帧的观测值进行更新。 通过添加位于阈值内的新观测值作为其子项来扩展每个轨迹假设,每个新观测值产生一个单独的分支。 我们还总是生成带有虚拟观察值的单独分支,以解决缺少检测的问题。我们还总是生成带有**虚拟观察值(dummy observation)**的单独分支,以解决缺少检测的问题。
Gating
基于运动估计,将为每个轨道假设预测一个门控区域,该门控区域指定了轨道的下一个观察结果将出现的位置.
Track Scoring
每个轨迹假设都与一个轨迹score相关联,k帧第l条轨迹的score定义为:
mot 代表motion, app代表appearance,S代表分数,w是权重用于控制位置测量yik和外观测量Xik对轨迹分数的贡献
我们使用目标假设和null hypothesis之间的对数似然比(LLR, log likelihood ratio)作为运动得分。 目标假设假设观察序列来自同一目标,null hypothesis假设观察序列来自背景
给定第l条轨迹的第1到第k帧,求第i到k帧的观测的概率
给定1到t-1帧的观测和1到t帧第l条轨迹的值,求观测为y的概率
where we assume that measurements are conditionally independent under the null hypothesis.
在目标假设下,在时间t处每个位置测量的可能性被假定为高斯, 均值和方差由Kalman得来
null hypothesis下的likelihood认为是均匀的,V是测量空间
外观分数定义为:
where we obtain the posterior LLR under the assumption of equal priors. The posterior ratio factorizes as
F(*)是对于特征向量Xit的分类分数,分类权重是从Xi1:t-1学习所得,background(null) hypothesisi 是一个常数概率c1
track score表示一个轨迹假设是否是一个真实的目标(Sl(k)>0)或虚警(Sl(k)<0),这个分数可以递归的表示为:
PD和PFA(假设非常小)是检测率和虚警率
是track 在k时刻的运动和外观分数的增量
应该是求了个梯度?
只要使用检测更新轨迹假设,分数更新就会继续。 从假设空间中删除为Nmiss连续帧分配虚拟观察结果的轨迹假设。
Global Hypothesis Formation
给定包含所有目标的所有轨迹假设的树集,我们想要确定帧k处对象轨迹的最可能组合。 这可以表述为以下k维分配问题:
在这里,我们对每个观测值iu有一个约束,以确保将其分配给唯一的轨道。
找到最可能的轨道集的任务可以表述为最大加权独立集(MWIS)问题。该问题与MHT上下文中的多维分配问题(13)等效。
通过将每个轨迹假设Tl分配给图顶点xl∈V来构造无向图G =(V,E)(请参见图2a)
请注意,需要在每个帧上通过轨道修剪(第3.5节)控制轨道假设的数量,以避免图形尺寸的指数增长。 每个顶点的权重wl对应于其轨迹分数S l(k)
如果两个轨迹由于在任何帧上共享的观察而无法共存,则边缘(l,j)∈E连接两个顶点xl和xj。 独立集是一组没有共同边的顶点。 因此,找到独立于最大权重的集合等同于找到使总轨道得分最大化的兼容轨道的集合。 这导致以下离散优化问题
我们使用精确算法[33]或近似算法[9]来解决MWIS优化问题,具体取决于其硬度(由节点数和图形密度决定)
Track Tree Pruning
我们采用标准的N扫描修剪方法。 首先,我们确定从等式获得的全局假设中包含对象轨迹的树枝。然后,对于每个选定的分支,我们追溯到帧k-N处的节点,并修剪与该节点处的选定分支不同的子树(参见图2b)。 换句话说,我们将旧观察的数据关联决策合并到帧k-(N -1)。 基本假设是,在展望N个帧的窗口之后,可以解决帧1到k-N的数据关联中的歧义[12]。 N越大,窗口越大,因此解决方案可能更准确,但运行时间更长。 修剪后,将删除全局假设中不包含任何轨迹的轨迹树。
跟踪树中的分支数大于阈值Bth,则我们将修剪跟踪树以根据其跟踪分数仅保留顶部Bth分支。
当我们使用MHT-DAM(参见表1)时,外观模型使我们能够执行其他分支修剪。 这使我们能够探索更大的门控区域,而不会明显增加轨迹假设的数量。特别的,我们设置∆Sapp(t)=-∞,以防止当树的外观得分F(Xit)<c2时,产生该树以进行观察。这些是我们的MHT实施中唯一的修剪机制。
Online Appearance Modeling
由于数据关联问题是不适当的,因此总是存在不同的运动学上合理的轨迹集。 因此,许多方法都对运动模型做出了很强的假设,例如线性运动或恒定速度[37、44、10]。 但是,这样的运动约束通常是无效的,并且可能导致不良的解决方案。 例如,相机可以移动,或者感兴趣的目标也可能突然改变其方向和速度。 因此,基于运动的约束不是非常可靠
当目标外观独特时,考虑外观信息对于提高跟踪算法的准确性至关重要。 我们采用多**输出正则化最小二乘框架(multioutput regularized least squares framework, MORLS)**来学习场景中目标的外观模型。 作为一种在线学习方案,与本地外观匹配相比,它不易漂移,因为考虑了来自许多帧的多个外观。
Multi-output Regularized Least Squares
多个线性回归器在多输出正则化最小二乘法中同时进行训练和更新。 在第k帧,线性回归变量的权重矢量由d×n权重矩阵Wk表示,其中d是特征维,n是要训练的回归器的数量
n k 是 特 征 相 邻 个 数 , X k , i 代 表 第 i 个 训 练 样 本 ( t r a i n i n g e x a m p l e ) 的 外 观 特 征 n_k是特征相邻个数,X_k,_i代表第i个训练样本(training example)的外观特征 nk是特征相邻个数,Xk,i代表第i个训练样本(trainingexample)的外观特征
Vk是输出,X是输入,W是权重
给出训练样本(X,V),权重矩阵为
Application of MORLS to MHT
我们利用每个检测到的边界框作为训练示例。 来自所有检测盒在时间k的外观特征形成输入矩阵Xk。 每个树分支(轨迹假设)都与一个回归器配对,该回归器使用从轨迹树出生的时间到当前时间k的检测值进行训练。 从航迹假设的整个历史中进行的检测用作阳性示例,而所有其他检测则用作阴性示例。 正面示例的响应为1,负面示例的响应设置为-1。 请注意,分类损失函数(例如hinge loss)将更适合此问题,但随后将失去有效更新和解析全局最优解的好处。
最小二乘框架的在线性质使跟踪树随着时间的推移而有效地更新多个回归器。 从根节点处的一个外观模型开始,随着轨迹树产生不同的分支,将生成不同的外观模型