目标跟踪

最新推荐文章于 2024-07-16 13:17:23 发布

Boran+

最新推荐文章于 2024-07-16 13:17:23 发布

阅读量5.6k

点赞数 7

分类专栏：目标跟踪文章标签：目标跟踪综述相关滤波深度学习 CF

本文链接：https://blog.csdn.net/qq_31521965/article/details/103206399

版权

目标跟踪专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本篇是基于单目标跟踪的论述

目标跟踪概述

1.1 定义：

1，单目标，即在给定的视频中只跟踪一个目标

2，在第一帧中会通过矩形的bounding box将目标给出。给定后，使用tracker找出每一帧的目标。

3，短期

1.2 目标跟踪面临的挑战有：

1，运动模糊（Motion Blur）

在获取视频时由于环境因素，相机抖动或物体运动等多种因素的影响，导致获取的视频帧像素退化，这种退化会导致角点，边缘等显著特征受损甚至消失。一般存在两种情况，当点扩散函数处于未知状态时，叫做盲去模糊，当点扩散函数已知时叫做非盲去模糊。

2，遮挡（Occlusion）

遮挡是目标跟踪中比较常见的挑战因素。遮挡又分为部分遮挡（Partial Occlusion）和完全遮挡（Full Occlusion）。解决部分遮挡目前较为常用的大致有两种思路：（1）利用检测机制判断目标是否被遮挡，从而决定是否更新模板，保证模板对遮挡的鲁棒性。（2）把目标分成多个块，利用没有被遮挡的块进行有效的跟踪。而对于完全遮挡目前并没有特别好的办法完全解决这个问题。

3，形变（Deformation）（与第一帧差异过大）

通常而言跟踪的目标并非一层不变的。而跟踪目标的形变，如果过大则会导致跟踪发生漂移（Drift）。而解决这个挑战的主要解决点就在解决漂移问题。常用的方法是更新目标的表观模型，使其适应表观的变化。因此面对这个问题时，至关重要的是模型更新方法。能否及时，准时更新，能否确定好更新的频率变成面对这个挑战时要关注的问题。

4，尺度变化（Changing In Scale）（镜头的拉近或拉远）

尺度变换是指目标在运动过程中距离拍摄的镜头距离的变化而产生的尺度大小的变化现象。由于尺度变换如果不能快速准确的预测出跟踪目标变化的系数就会影响跟踪的准确率。现在通常的做法有：（1）在运动模型产生候选样本的时候，生成大量的尺度大小不等的候选框，选择最优作为目标。（2）在多个不同尺度的目标上进行目标跟踪，产生多个预测结果，选择其中最优作为最后的预测目标。

5，快速移动（Fast Motion）

快速移动指的是要跟踪的目标在接下来的帧中，快速的变换位置。这样很可能会导致目标丢失，因此也是目标跟踪的一个比较重要的点。

还有背景杂斑（Background Clutter），光照变化（illumination variation）等其他挑战。总而言之对于视觉跟踪而言，由于运动目标的运动场景大多较为复杂，并且经常发生变化，或者要跟踪的目标本身也会发生变化。这样就导致要考虑的问题变成了，如何在复杂变换的场景中识别并跟踪不断变化的目标。

经过上述的方法总结就个人而言感觉视觉跟踪大致有两个比较困难的点：

1.上述的各个挑战，由于要考虑的视频中跟踪的目标的具体情况不同，所以对应的挑战也不相同，想要一劳永逸的解决是不现实的。可能一个算法在面对一个挑战时表现的很好，但面对另一个挑战时表现的又很差。

2.缺乏训练样本，假如我们使用深度学习的方法来进行目标跟踪。那么我们需要对应的数据集来训练网络，但因为目标跟踪任务的特殊性，只有初始帧的图片数据可以利用，因此缺乏数据供神经网络学习。

1.3 目标跟踪方法：

就目前为止，追踪器大致分为两大类生成性追踪器和鉴别性追踪器。

（1）生成性追踪器（Generative Method）：通过在线学习的方式建立目标模型，然后使用模型搜索重建误差最小的图像区域，完成目标定位。这一类方法没有考虑目标的背景信息，图像信息没有得到较好的应用。通俗点讲就是在当前帧对目标区域建模，下一帧寻找与模型最相似的区域就是预测位置，比较著名的有卡尔曼滤波，粒子滤波，mean-shift等。

（2）鉴别性追踪器（Discriminative Method）：将目标跟踪看作是一个二元分类问题，同时提取目标和背景信息用来训练分类器，将目标从图像序列背景中分离出来，从而得到当前帧的目标位置。CV中的经典套路图像特征+机器学习，当前帧以目标区域为正样本，背景区域为负样本，机器学习方法训练分类器，下一帧用训练好的分类器找最优区域：与生成类方法最大的区别是，分类器采用机器学习，训练中用到了背景信息，这样分类器就能专注区分前景和背景，所以判别类方法普遍都比生成类好。

1.4 跟踪方法：

稀疏表示(Sparse Representation)：对于生成性追踪器来说，较为典型的就是稀疏矩阵了。给定一组过完备字典，将输入信号用这组过完备字典线性表示，对线性表示的系数做一个稀疏性的约束（即使得系数向量的分量尽可能多的为0），那么这一过程就称为稀疏表示。基于稀疏表示的目标跟踪方法则将跟踪问题转化为稀疏逼近问题来求解。但实际上近些年来生成性追踪器使用的较少。因此系数表示也用的也比较少。基本上相关滤波和深度学习占据了目标跟踪的大半。

相关滤波(Correlation Filter)：相关滤波本身源于信号领域。其基本思想为衡量两个信号是否相关，两个信号越相似，那么相关的操作越强。对于目标跟踪而言，对应的上一帧得到的目标与下一帧中的区域越相似，响应越高。通常使用卷积表示相关的操作。当其应用到目标跟踪上时，其基本思想就是，寻找一个滤波模板，让下一帧的图像与得到的滤波模板做卷积操作，响应最大的区域就是预测的目标。

深度学习(CNN-Based)：对于神经网络来说由于CNN引入了卷积层和池化层的概念。而卷积层在输入的时候不仅考虑到了输入的值，还可以保持输入的形状不变。当输入数据是图像时，卷积层会以三维数据的形式接收输入数据，并且同样以三维数据的形式输出至下一层，因此，CNN可以正确理解图像等具有形状的数据。所以对于计算机视觉领域有着独特的优势。对于检测，人脸识别等早CNN早以发出自己的声音。但对于目标跟踪领域而言，开始并不顺畅。正如上文所述由于目标跟踪的特殊，只有初始帧的图片数据可以用，所以缺乏大量的数据供神经网络学习。直到后来将在分类图象数据集上训练的卷积神经网络应用到目标跟踪上后，基于深度学习的目标跟踪方法才得到充分的发展。

1.5 数据集：

OTB：OTB分为OTB50和OTB100，其中OTB100包含OTB50，该数据集的特点是人工标注的groundtruth，同时包含有25%的灰度数据集。

VOT：本身是竞赛数据集更具有代表性。同时VOT每年更新。

VOT与OTB的区别：这两个数据集都是目标跟踪常用的数据集，但还有一定的差别。

（1）OTB包括有25%的灰度序列，但VOT都是彩色序列，这也导致了很多颜色特征算法性能的差异。

（2）两个库的评价标准也不一样。

（3）OTB有随机帧开始，或者矩形框加随机干扰初始化去跑，但VOT是第一帧初始化跑，每次跟踪失败时，5帧之后重新初始化，VOT以短时跟踪为主，并且认为跟踪监测应该在一起不分离，detecter会多次初始化tracker。

目标跟踪基本流程

2.1 基本流程

单目标视觉跟踪的任务就是在给定某一个视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，其基本流程如下图所示：

输入初始化目标框，在下一帧中产生众多候选框（Motion Model），提取候选框的特征（Feature Extractor），然后对这些候选框评分（OBservation Model），最后在这些评分中找到一个最高得分的候选框作为预测的目标（Prediction A），或者对多个预测值进行融合（Ensemble）提高准确率。

基于上述过程将该流程大致分为以下五个模块进行研究：

1.运动模型（Motion Model）：基于对前一帧的估计，运动模型生成一组可能包含当前帧中目标的候选区域或包围盒。

运动模型旨在描述帧与帧目标运动状态之间的关系，显式或隐式地在视频帧中预测目标图像区域，并给出一组可能的候选区域。常用的有两种方法：粒子滤波和滑动窗口。其中粒子滤波是一种序贯贝叶斯推断方法，通过递归的方式推断目标的隐含状态。滑动窗口是一种穷举搜索方法，它列出目标附近的所有可能的样本作为候选样本。

2.特征提取（Feature Extractor）：征提取器使用一些特征表示候选集中的每个候选者。

适用于目标跟踪的特征一般要求，既能较好地描述跟踪目标又能快速计算。常用的特征也被分成两类：手工设计的特征和深度特征。常用的手工设计的特征有：灰度特征，颜色特征，纹理特征等。而深度特征则是通过大量的训练样本学习出来的特征，更具有鉴别性。

3.观测模型（Observation Model）：观察模型根据从候选人中提取的特征判断候选人是否是目标。

观测模型返回给定目标候选人的置信度，因此通常被认为是跟踪器的关键部件。与特征提取器和观察模型组件相比，运动模型对性能的影响一般很小。然而，在尺度变化和快速运动的情况下，合理地设置参数仍然是获得良好性能的关键。如上文中提到的，追踪器大致分为两大类生成性追踪器和鉴别性追踪器一致。观测模型可分为两类即生成式模型和鉴别式模型，生成式模型通常寻找与目标模板最为相似的候选作为跟踪结果，可简单视为模板匹配。较为常用为上文中提到的稀疏表示。而鉴别式模型则通过训练一个分类器去区分目标与背景，选择置信度最高的候选样本作为预测结果。判别式方法已经成为目标跟踪中的主流方法，如上文中提到的相关滤波，深度学习。

4.模型更新（Model Update）:模型更新器控制更新观测模型的策略和频率。它必须在模型适应和漂移之间取得平衡。

为了捕捉目标( 和背景) 在跟踪过程中的变化，目标跟踪需要包含一个在线更新机制，在跟踪过程中不断更新外观模型。在本文中考虑两种方法。1.每当目标可信度低于阈值时更新模型。这样做可以确保目标始终具有很高的信心。 2.当目标的置信度与背景样本的置信度之差低于阈值时，对模型进行更新。这种策略只是在正面和负面的例子之间保持足够大的差距，而不是强迫目标有很高的信心。

5.集成结果处理（Ensemble Method）：当一个跟踪系统由多个跟踪器组成时，集成后处理器获取组成跟踪器的输出，并使用集成学习方法将它们组合成最终结果。

单个跟踪器的结果有时可能非常不稳定，因为即使在很小的扰动下，性能也会发生很大的变化。参数采用集成方法的目的就是为了克服这一限制。

2.2 总结

由上述的过程可得知模块之间的关系为：运动模型负责描述帧与帧目标运动状态之间的关系，给出一组目标可能会出现的候选区域。特征提取则能够很好的跟随目标同时又保证计算较为简洁。而观测模型作用于当前帧，用来判断区域内是否是要跟踪的目标。因为在较长的跟踪过程中目标的特征可能会出现变化，因此需要一个目标更新模块来不时的对观测模型进行实时更新以此来确保跟踪目标的正确性。而单个跟踪器其结果不确定。并不能一定确保跟踪的稳定性。所以需要集成结果处理来确保结果的稳定性。