文献阅读笔记： Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪

本文链接：https://blog.csdn.net/sloanqin/article/details/49357103

本文详细介绍了实时多对象跟踪技术在处理动态场景中的遮挡问题，包括分割、融合、特征匹配等关键步骤。文章指出现有算法在处理完全遮挡和长期遮挡时的不足，并提出了一种基于运动模型的解决方案，有效处理了遮挡前、遮挡中和遮挡后的不同情况。同时，介绍了背景更新和目标分割算法，以及如何通过矩阵操作实现目标的融合和分裂检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文献阅读笔记： Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪

文章第一部分

摘要：强调了对于持续时间长，完全遮挡的物体，没有形态或者运动的先验知识也能比较好的处理。实测表明有良好的分割和跟踪效果，速度15-20fps，图像大小320*240

介绍：

文献【1-5】，可以从这里的5篇文章看看目标跟踪的实用价值。

文献【6-8】，对多个相互作用的物体，产生的遮挡问题提出了解决办法：采用多摄像头融合。（ps：这里我感觉比如说多个人走的时候相互交错，类似这种问题）

文献【9】，通过概率模板和外观模型，解决频繁形变和大型遮挡的问题。

文献【10】，发展了一种贝叶斯分割方法，用于在遮挡下跟踪行人；该方法融合了基于区域的背景差分和人体形态模型。

文献【11】，提出了一个动态的贝叶斯网络，可容纳一个额外的隐藏的处理过程，该过程用于部分遮挡处理。

文献【12-16】，基于外观模型跟踪遮挡的物体。

文献【17】，提出了一个动态的背景模型，把运动的物体作为前景层，然后给前景建模，而且还包含了前景的顺序，这些完整的信息对于可靠的跟踪非常有价值。

同时文章又指出了上述文章提出的算法的缺点：

文献【6-8】，不能解决完全遮挡的问题。

文献【12-13】，基于精确模型的算法，对背景杂波很敏感；而且计算代价比较大，基于模型估计的方法，模型的参数数量一般比较大。

此外很多算法都是针对短时间的部分遮挡问题，对于严重遮挡和遮挡时间较长时，处理的不好。

文献【18-20】，像蒙特卡洛滤波器这种概率方法，能够比较好处理背景杂波，因为它允许跟踪多个假设目标。

文献【21】，运用运动模型来跟踪，在一些遮挡场景下具有较好的鲁棒性；这些方法需要精确的运动模型，当多个运动目标相互作用的时候，对于这种非线性运动效果就不好了。

总结之后，作者提出了自己的方法：

作者提出的方法是针对多目标在动态场景下的跟踪（ps：问下这里的动态场景指的是什么），根据目标的状态，划分成了3个阶段：遮挡前、遮挡中、遮挡后；

遮挡前和遮挡后目标都是独立运动的，遮挡中是几个目标在一起，这时候把这几个目标称为一个group；作者做了一个假设：在遮挡中，单个目标的运动轨迹与它所在的group是相同的（这个假设比较符合实际情况）；这样一个目标的完整轨迹就可以通过遮挡前，遮挡后，加遮挡中这3个部分恢复出来；

该系统包含两部分：1 目标分割， 2 融合，分裂检测和特征匹配；

part1 给出了一种快速的算法，用来维持背景，能够比较好的适应阴影和光照变化，速度在20fps；背景模型的建立是基于一个2 level的像素运动分析算法，这个背景模型会用来执行背景图像差分；然后经过连通域分析，移除小斑点（small blobs），由此得到前景图像并且保存下来；然后为了消除背景噪声产生的大斑点，part2中的跟踪模块会根据连续几帧前景确定跟踪目标，只有那些连续几帧匹配的目标才会被认为是有效的目标；

part1算法的处理过程如下：通过像素级和帧级的运动建立背景模型；输入图像与背景做差得到前景，然后经过形态学滤波，消除小的噪声点；（ps：像大片树叶这种噪声，是否可以考虑通过简单的分类算法直接去除掉）

part2 ：检测一个目标，然后划分为4类：已经存在的，新的，融合的，分裂的；对于前两种目标，直接跟踪；对于融合的目标新建立一个group，建立跟踪；对于分裂的目标，与之前的目标进行特征匹配，分配正确的标签，继续之前的跟踪。图形如下：

这篇论文的第2部分讲述运动目标的分割算法，第3部分讲述融合和分割的算法，第4部分讲述特征匹配的算法，第5部分讲述大量测试的结果。

文章第2部分：运动目标分割

文章采用背景减除的方法，但是不是像混合高斯背景建模那样依赖于像素值的分布，而是根据像素级和帧级的运动反馈来进行实时的分割和背景更新；这样做避免了混合高斯模型计算量大和对新背景适应慢的缺点。

基于像素运动的前景提取方法是基于一个假设，假设运动目标的像素点的变化要比背景区域的像素点变化快。这个假设一般都成立，但是有一个例外的情况，就是当运动目标的颜色很单一的时候（ps：比如一个人穿着一件纯红的衣服，他在动的时候，他身体内的那些像素点都是红的，就没有动），为了解决这个问题，基于帧建立了一个matrix，将像素点的运动信息存在这个矩阵中，再处理判断。

其计算方法很简单，作者通过下面的公式总结了出来：

公式1中，I代表输入的图像，下标i j指定图像中具体的像素点；公式1 计算当前帧和前一帧的像素差，如果小于Tf表示没变化，否则有变化记为1；公式2根据公式1中计算得到的F，如果F不为0，将矩阵D中对应ij处的值更新为lamda，否则就减少对应的 i j处的值直到0；

公式3说明的是背景的更新方法，a是学习速率，如果D 中像素i j对应位置为0，就会用公式3更新背景图像；所以这里的a就直接决定了背景更新速度的快慢；

基于像素点的方法还有一个致命的缺点，它忽略了整体图像的变化，比如摄像机的晃动，光照变化，物体离开场景等等。所以作者又利用公式4来进行更快的背景更新，解决整体图像变化的问题：

公式4 的意思：m与n是图像的长宽，F我们知道是变化的像素点，所以V表示的是变化的像素点占整个图像的比例。

作者决定，当V小于某个阈值的时候，使用公式3，对整幅图像进行更新；

下图给出了前景提取的分部结果示意，b是像素点检测后的结果，c是形态学处理后的结果，d是结合帧间信息处理后的结果。

文章第3部分：融合和分裂物体检测

这部分的任务其实就是：将检测到的目标与跟踪(track) 相关联；作者使用一个简单的矩阵D来计算，图示如下，T代表已有的跟踪，M代表检测到的目标

T1 T2 T3 . .......... Tm

.......

然后作者使用公式5（ps：就是距离计算公式），计算M与T之间的欧式距离，将结果填入上面的矩阵D中。当然计算的距离是有阈值限制的，超过了阈值直接设为无穷大。

记全0矩阵C，对矩阵D 的每一行和每一列求最小值，将最小值元素对应位置 +1，得到矩阵C

b1 b2 ......... bm

......

那么每一个目标（measure）的结果就是它所在行的值累加，有0 1 2，三种结果

对于每一个track，它的结果就是它所在列累加，有0 1 2，三种结果

这几种结果对应着几种关系：

一个跟踪track，对应0个measure：目标消失

一个跟踪track，对应多个measure：目标分裂

一个measure，对应0个track：目标新出现

一个measure，对应多个track：目标融合

一个measure，对应一个track：正常

接下来文章采用的处理办法是：将矩阵C中所有==2的位置对应的M和T，匹配起来（目标与跟踪对应起来）；然后将D中对应的行和列的矩阵更新为无穷大，再用D更新产生新的C，如此循环，直到C矩阵中没有2为止；

这样处理后，得到3种结果：没有匹配的track，没有匹配的measure，匹配好的track和measure；

接下来对于没有匹配的track会有一个merging算法：该算法判断此track是由于目标被融合了，还是目标消失了；如果判定为目标融合，就创建一个新的group；如果判定为消失，该跟踪的信用度就开始下降，当信用度下降到一个阈值的时候，这个跟踪就会被删除掉；

对于没有匹配的目标，也有一个split算法：该算法判断当前目标是一个新的目标还是分裂出来的；如果是分裂出来的，会通过一个特征匹配模块，将该目标与之前的跟踪对应起来；

merging算法依据的原理：当物体融合的时候，没有匹配的跟踪会与一个目标有一定区域的重合；spliting算法依据的原理：当物体分裂的时候，没有匹配的目标会与一个跟踪有一定区域的重合；这个假设要成立有一个条件：就是目标分割的处理速度要求较快，否则已经完全分离，就没有重合了；前文中提到的分割算法能达到20fps，即使是快速运动的物体，也能很好满足要求。

文章第4部分：特征匹配

搜索

文章第5部分

搜索