多目标跟踪:文献综述

阅读关于MOT的综述后进行的总结

目录

1、介绍

1.1、文献对比

1.2、主要贡献

2、MOT问题

2.1、一般数学公式

2.2、MOT分类

2.2.1、初始化方法

2.2.2、处理模式

2.2.3、输出类型

2.2.4、总结

3、MOT系统中的组件

3.1、外观模型

3.1.1、视觉表示

3.1.2、统计测量

3.2、运动模型

3.2.1、线性运动模型

3.2.2、非线性运动建模

3.3、交互模型

3.3.1、社会力模型

3.3.2、人群运动模型

3.4、排斥模型

3.4.1、检测级排斥

3.4.2、轨迹级排除建模

3.5、遮挡处理

3.5.1、Part-to-whole

3.5.2、假设和测试

3.5.3、缓冲和恢复

3.5.4、其他

3.6、推理(参考2.1节)

3.6.1、概率推理

3.6.2、确定性优化

3.6.3、讨论

3.7、总结

4、MOT评价

4.1、指标

4.1.1、检测指标

4.1.2、跟踪指标

4.2、数据集

4.3、公共算法

4.4、基准结果

5、总结

5.1、现存问题

5.2、未来展望


1、介绍

多目标追踪的任务主要是对象的定位和和识别,以及轨迹的追踪,纵观全篇综述,目前MOT还是更广泛地集中在行人,这与用途和技术难度有关

同SOT相比,MOT不仅有确定对象数量,保持轨迹的问题,还有其他关键问题如:1)频繁的遮挡,2)轨道的初始化和终止,3)相似的外观,4)多个对象之间的交互

1.1、文献对比

根据调研,将文献分为4部分

第一部分文献将跟踪从MOT中分离,作为一个步骤存在;第二部分文献致力于研究一些特殊问题,研究更广泛;第三部分文献讨论一般视觉跟踪和特定多目标跟踪的基准,注意力更集中在实验研究;第四部分回顾随着深度学习兴起,目标检测的发展,MOT相比对象检测需要通过多个帧联系观察结果以形成对象轨迹

1.2、主要贡献

推导MOT问题的统一公式;研究MOT问题的分类方法;分析了MOT系统中组件的用途、分类,优缺点;讨论现存问题和未来展望

2、MOT问题

2.1、一般数学公式

定义两个变量,S表示某物体在某帧中的状态,O表示某个对象在某帧中的观测值,多目标跟踪的目标是找到所有目标的“最优”顺序状态,即需要找到对象的最大概率,通过使用最大后验估计法(即MAP)来计算1:t帧中该全概率公式的最大值

dc6c6aa17a78470eac30144bc5d0ad96.png

可以通过概率推理角度和概率确定优化角度解决MAP问题

基于概率推理方法通常用于方程(Eqn)的MAP问题

1)

8abf1efd51ea442099de208a2264daea.png

第一个公式通过贝叶斯滤波器对状态进行预测,通过将在前一个时刻状态为St-1的情况下,当前时刻状态为St的转移概率和在给定过去观测O1:t-1的情况下,前一个时刻状态为St-1的概率相乘然后求积分,得到给定前t-1帧观测状态情况下第t帧状态为St的概率

第二个公式表示 P (St|O1:t) 可以通过观测更新步骤中的乘积 P (Ot|St)*P (St|O1:t−1) 进行计算

PS:上述两个公式中的P (St|St−1) 和 P (Ot|St) 分别为动态模型和观测模型,后文会提到

基于确定性优化角度

通过对一组观测值中将P(S1:t|O1:t)使用最大化拟合函数处理得L(S1:t|O1:t):

2)

80fd6cd6237c42dcb65e9ae29562224f.png

或者反过来最小能量化函数处理得E(S1:t|O1:t):

3)

9d1739ef26884c1aada3a2d67e82e17c.png

PS:这里的Z表示保证P(S1:t|O1:t)为概率分布的归一化因子

2.2、MOT分类

根据三个标准进行MOT方法的分类:a) 初始化方法、b) 处理模式和 c) 输出类型

2.2.1、初始化方法

分为两组:基于检测的跟踪(DBT)和无检测跟踪(DFT)

   d07c2facbe024939a5a4f9b5b896bdf4.png

DBT:在每一帧中通过目标检测后获得目标假设,然后进行MOT跟踪,在目标检测过程中使用目标检测器,由于目标检测器需要预先训练,所以一般只能应用于特定目标,同时性能也依赖目标检测器的性能

DFT:需要在第一帧中手动初始化固定对象的数量,然后在接下来的帧里进行定位(按顺序处理)(2023年的今天该方法已经不怎么使用)

总的来说,DBT更受欢迎,可以发现新对象,并自动终止消失的对象,DFT不能处理对象出现的情况

2.2.2、处理模式

分为两组:在线跟踪和离线跟踪

7a6fa053376640d28a62c70f51d26795.png

在线跟踪:不同于利用未来帧来处理现在帧,在线跟踪只依赖当前帧的过去可用信息,对图像序列进行逐级处理。如图,未来的信息均由过去信息所推导得到

离线跟踪:同时使用过去和未来观测结果,需要提前获取所有帧的观测值,联合分析来估计最终结果(由于计算和内存限制,需将数据分割然后按顺序或层次推断),如图,某一刻的信息由所有观测值分析得到

2.2.3、输出类型

分为两组:随机跟踪和确定跟踪,由于输出形式将MOT方法分为随机方法和确定方法(参考2.1)

随机跟踪:在不同的运行时间会产生不同的结果

确定跟踪:输出恒定

2.2.4、总结

大多数情况下DFT与在线跟踪相同,都是按顺序处理,但也有例外,总体来说,没有太多关联性,使用哪种初始化方法和处理模式只取决于应用于环境。同时还存在有其他分类和方法

3、MOT系统中的组件

MOT的目标是在单个帧中发现多个对象,并从给定的序列中恢复连续帧(即轨迹)的身份信息。有两个主要问题:一是测量帧内对象间的相似度(涉及外观、运动、交互、排斥和遮挡),二是基于跨帧对象间的相似度来恢复身份信息(涉及推理)

3.1、外观模型

和SOT只是区分目标和背景不同,尽管外观模型很重要,但大多数MOT方法不以外观模型作为核心组件,外观模型包括视觉表示和统计测量,视觉表示利用线索来描述物体特征,统计测量是来计算不同观测值间的相似性,以Sij = F(oi, oj)来表示两个观测值i和j之间的相似性

3.1.1、视觉表示

分为三组:本体特征、区域特征和其他

本体特征:以KLT为例,KLT(Kanade-Lucas-Tomasi)光流跟踪是一种经典的光流算法,用于估计图像中像素的运动。需假设在一个小的局部区域内,相邻帧之间的像素强度保持不变,即图像像素为最优特征范围,一般与其他技术相结合。因为其可以与运动结合,利用光流对运动信息编码。光流的一个特殊应用是发现拥挤场景中的人群运动模式

区域特征:区域特征相比本体特征提取范围更广(如边界框),分为三种类型:a)零阶型,b)一阶型,c)up-to-second

零阶:最广泛使用,表示不比较像素的值,如颜色直方图和原始像素模版

一阶:表示计算一次像素之间的差异值,如基于梯度表示和水平集公式

up-to-second:如区域协方差矩阵

其他:Taking depth、概率占用图、步态特征、DCNN、ColorNames描述符、CNN的深度特征、点云特征等

总体来说,不同的视觉表示方法各有优缺点,使用时还需要考虑具体环境

3.1.2、统计测量

根据视觉表示,可以依赖单个线索或多个线索来计算不同观测值之间的相似度

单个线索:可以将距离转化为相似度或直接计算亲和力

多个线索:不同类型的线索可以互补,使模型更具鲁棒性,分为5种融合策略

boost:通过基于boosting的算法从特征池中依次选择一部分特征

连接:将不同类型的特征连接

求和:从不同特征中获取亲和力值,并用权重平衡这些值

生产:通过数值相乘来产生综合亲和力

级联:使用一种使用各个类型的视觉表示的级联方式

3.2、运动模型

捕获对象的动态行为,估计对象在未来帧中的潜在位置,从而减少搜索空间

3.2.1、线性运动模型

采用匀速假设,有三种构造方式

速度平滑:在连续帧中强制对象速度值平滑变化来建模,通过在N帧和M轨迹上,计算某一位置时的速度和下一刻的速度差的平方求和

34a1cd3257724fe2992bf6660f19b886.png

位置平滑:直接强制观察位置和估计位置之间的差异。在估计阶段同时考虑向前运动和向后运动,令尾部位置和头部位置列拼接,再以头部的协方差矩阵为参数得到正态分布N1,再令头部位置和尾部位置列拼接,以尾部的协方差矩阵为参数得到正态分布N2,通过N1和N2相乘线性运动模型的亲和力

ac5a57e1843f4e0592a42a35d0bc3189.png

加速度平滑:给定观测轨迹{Ok},在k时刻{Sk}的运动概率分布建模为

359a2349d0134a108908ac3d16d4e22a.png

分别计算位置(Xk)、速度(Vk)、加速度(ak)的零均值高斯分布然后连乘

3.2.2、非线性运动建模

有些情况线性运动建模不能处理,因此提出非线性运动建模来获得更精确的轨迹间运动亲和力

b05ef43fdfc84fc783aec9aae7bb327e.png

如左图所示,通过线性运动建模分别得到的T1和T2之间有较低的连接概率,T1尾部和T2头部之间有较大空隙,这时引入非线性运动建模,如右图,可以用轨迹条T0解释然后再用线性运动模型求解

3.3、交互模型

捕捉一个对象对其他对象的影响,如行人行走,会避免他人的碰撞(社会力模型)和一群人走过,每个人跟着别人,也引导别人(人群运动模型)

3.3.1、社会力模型

每个对象被认为依赖于其他对象和环境,可以缓解拥挤场景中的性能下降,目标基于对其他物体和环境的观察来确定运动状态,是基于个体力和群体力来建模

        个体力:每个个体考虑两种力

                忠诚:不改变目标

                恒久:不改变动力,即速度和方向

        群体力:分为三组

                吸引:群体运动时个体间保持紧密

                排斥:个体间保持距离

                一致:群体间的个体应以相似速度运动

3.3.2、人群运动模型

引入运动模式来降低人群中单个物体的跟踪难度,运动模式分为结构化和非结构化,运动模式可以通过各种方式学习

        结构化:表现出集体的时空架构

        非结构化:表现出不同的运动模式

3.4、排斥模型

在解决MOT问题的时候为了避免物理碰撞采用的约束,提供多个检测相应和多个轨迹假设,分为两个约束条件:检测级排斥和轨迹级排斥

3.4.1、检测级排斥

不能将同一帧的两个不同的检测响应分配给同一目标,分为“软”和“硬”两种模式

        软:通过最小成本项来惩罚违规情况的“软性”建模

        硬:通过应用显示约束实现

3.4.2、轨迹级排除建模

通过对两个相近的检测假设具有不同轨迹标签的情况进行惩罚(类似3.4.1节中的“软”模式)

3.5、遮挡处理

重要!!!关键!!!

3.5.1、Part-to-whole

假设被遮挡后仍然有一部分可见,通过观察并利用可见部分来推断整个对象的状态,流行的方法是将整体划分为几个部分,再计算各个部分的关联,若发生咬合,则咬合部位的亲和力会很低。有一种“硬”方式是忽略被遮挡部分,还有一种“软”方式是通过部分关联来恢复部位轨迹。

PS:基于特征点聚类跟踪也采用了该策略

3.5.2、假设和测试

通过假设建议并根据观测结果测试建议来避免遮挡

        Hypothesize:将两个具有不同层次和模式的物体综合起来,产生不同的检测假设

        test:假设准备好后用于MOT,即2.1节

3.5.3、缓冲和恢复

在遮挡前记住对象状态,在遮挡时缓冲观察结果(如延长轨迹时长),遮挡结束后,根据缓冲的观测值和遮挡前存储的状态恢复物体状态

3.5.4、其他

还有很多,各有优缺,某些情况下多种策略会组合使用

3.6、推理(参考2.1节)

3.6.1、概率推理

通常将对象的状态表示为具有不确定性的分布,跟踪算法的目标是通过基于现有观察的各种概率推理方法来估计目标现状的概率分布(参考2.2.2的在线跟踪)。满足以下条件:第一,通过过去的状态推断当前的状态;第二,观察结果条件独立,即2cf7cae929b24b7dbeedde0e6b684147.pngdcecfe55a90e40e5bfe6b2d93bfb0be1.png

这两方面分别对应动态模型和观察模型,动态模型对应跟踪策略,观测模型提供了有关对象状态的观察测量。预测步骤是通过过去的推断现在的,即通过动态模型来对最后一个对象状态的空间进行积分来估计当前状态的后验概率分布。更新步骤是根据观察模型下获得的测量值更新状态的后验概率分布。如2.1节所示,通过迭代进行预测和更新来估计物体的状态,然而在实际中依旧有很多问题存在

现提出一些概率推理模型:卡尔曼滤波器、扩展卡尔曼滤波器、粒子过滤器等

3.6.2、确定性优化

确定性优化旨在找到MOT的最大后验(MAP)解决方案。更适合离线跟踪,因此需要提供所有帧的观测值(通常是检测假设),关键是找到对象和轨迹之间的最佳关联。

以下是一些流行方法:二分图匹配,动态规划、Min-cost max-flow网络流、条件随机场、MWIS等

3.6.3、讨论

和概率推理相比,确定性优化或能量最小化更流行,概率推理通常难以推断,而能量最小化可以在合理时间内得到好的解决方案

3.7、总结

不是所有MOT方法都具有所有的组件,一般来说外观、运动和推理是必要的,这些组件之间彼此不正交,可以相结合来运作

4、MOT评价

通过指标和数据集来定量评估MOT方法的性能,一方面,要衡量不同组件和参数对设计最佳系统整体性能的影响,另一方面可以与其他方法直接比较。由于MOT方法大多数采用DBT,通常测量检测性能及跟踪性能,因此采用目标检测指标,指标分为两组评估检测和跟踪

4.1、指标

4.1.1、检测指标

检测指标分为两组:一组衡量准确定,一组衡量精度

准确性:召回率、精度指标、每帧平均误报率(FAF)等

精度:预测检测和基本事实的对齐质量(其实就是预测和现实是否符合)

4.1.2、跟踪指标

根据属性不同分为两组:准确性、精度

准确性:虽然还有一些问题,但仍然是MOT最广泛接受的评估措施

精度:多目标跟踪精度(NOTP)、跟踪距离误差(TDE)、OSPA等,描述了通过边界框重叠或距离跟踪对象的精确程度

4.2、数据集

MOT数据集相比SOT数据集规模更小,且当前数据集更侧重于行人,近年来重心逐渐向多类检测推移

4.3、公共算法

和SOT相比公共程序不多,相比SOT,MOT还任重而道远

4.4、基准结果

列举数据集的公共结果来得到不同方法下的比较,但由于以下原因,这种比较并不公平:

        处理模式不同:由于2.2.2节中所说的差异,离线方法可以获得更多的信息

        检测假设不同:基于不同检测假设的一种方法尚且有不同的结果,更何况不同方法

        方法使用场景不同

为了对比更加严谨,需要修复改变所有组件,这是MOT基准的主要目标(其实就是要尽可能控制变量),尽管存在问题,但由于以下原因,这种对比依旧有价值:

        提供了不同方法间的直观比较

        可以比较出同一类型的方法的价值

        通过这种比较来观察MOT的发展

5、总结

尽管MOT取得很大进展,但仍然存在很多问题

5.1、现存问题

除了数据集(4.2节)和公共算法(4.3节),MOT还存在一个问题是,MOT方法的性能很大程度上取决于对象检测器,相同的方法可能产生具有显著性能差异的结果;另一个问题是,如果在开发MOT解决方案的时候算法过于复杂、有很多参数,就加大了调整方法的难度,一些方法在特定场景中表现良好,但应用于其他场景可能并不乐观(可能是由于在特定视频中训练,不能很好推广的原因)

5.2、未来展望

提出一些可能研究方向

MOT与视频适应:由于需要依赖对象检测器,但特定视频的检测结果可能并非最优,可以逐步细化检测器,将检测器适应特定视频

MOT与多台摄像机下:分为两种配置,第一个是多个摄像机记录相同场景,但需要融合多个摄像头的信息,第二个是每个摄像头记录不同场景,但多个摄像机间的数据关联就需要重新识别

多个3D对象跟踪:区别于在图像平面上的2D跟踪,3D跟踪可以为高级计算机视觉任务提供更精确的位置、大小估计和有效遮挡处理,但3D跟踪需要相机校准、估计相机姿势和场景布局等挑战

MOT与场景理解:为MOT的分析结果提供上下文信息和场景结构等

MOT与深度学习:运用深度学习模型可显著提高跟踪性能

MOT与其他计算机视觉任务:和其他计算机视觉任务联合解决

由于MOT现主要集中于跟踪人类,所以除以上所述,对其他目标、场景的研究也值得探索,但也会面临很多困难与挑战

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值