A Survey of Appearance Models in Visual Object Tracking

最新推荐文章于 2024-07-18 10:20:59 发布

fjswcjswzy

最新推荐文章于 2024-07-18 10:20:59 发布

阅读量1.1k

点赞数

分类专栏：目标跟踪文章标签：计算机视觉

原文链接：https://arxiv.org/pdf/1303.4803.pdf

版权

目标跟踪专栏收录该内容

15 篇文章 2 订阅

订阅专栏

A Survey of Appearance Models in Visual Object Tracking

原文：https://arxiv.org/pdf/1303.4803.pdf
$\color{red}{【本文字数约为37500 建议收藏阅读】}$

文章目录

1.INTRODUCTION
- 1.1. Overview of visual object tracking
- 1.2. Challenges in developing robust appearance models
2. ORGANIZATION OF THIS SURVEY
- 2.1. Main differences from other related surveys
- 2.2. Contributions of this survey
3. VISUAL REPRESENTATION
4. STATISTICAL MODELING FOR TRACKING-BY-DETECTION
5. BENCHMARK RESOURCES FOR VISUAL OBJECT TRACKING
6. CONCLUSION AND FUTURE DIRECTIONS

先讲了视觉目标跟踪在计算机视觉领域的重要性以及研究难点，还说了2D外观模型在目标追踪时时很重要的，在这篇文章中，研究人员提出了多种2D的外观模型
为了帮助读者快速了解用于视觉目标跟踪的2D外观模型的最新进展，我们对现有2D外观模型进行了详细的回顾。特别是，本次调查采用了基于模块的体系结构，该体系结构使读者可以轻松掌握视觉对象跟踪的关键点。在此调查中，我们首先将外观建模问题分解为两个不同的处理阶段：视觉表征和统计建模。然后，针对不同的2D外观模型对其构成模块进行分类和讨论。最后，我们解决了一些令人感兴趣的问题，以及将来对该主题进行研究所面临的挑战。
这项调查的贡献是四方面的。首先，我们根据视觉表征的特征构造机制（即局部和全局）来回顾视觉表征的文献。其次，根据它们的模型构建机制对现有的用于检测跟踪的统计建模方案进行了回顾：生成，区分和混合生成-区分。第三，从理论或实践角度分析和讨论每种类型的视觉表示或统计建模技术。第四，在此次调查中检查了现有的基准资源（例如源代码和视频数据集）

1.INTRODUCTION

计算机视觉的主要目标之一是使计算机能够复制人类视觉的基本功能，例如运动感知和场景理解。为了实现智能运动感知的目标，已经在视觉目标跟踪上进行了很多努力，这是计算机视觉中最重要和最具挑战性的研究主题之一。本质上，视觉目标跟踪的核心是鲁棒地估计输入图像序列每一帧中目标对象的运动状态（即位置，方向，大小等）
近年来，文献中发表了大量关于视觉目标跟踪的研究。对视觉对象跟踪的研究兴趣来自于以下事实：它具有广泛的实际应用，包括视觉监视，交通流监视，视频压缩和人机交互。例如，视觉对象跟踪已成功应用于监视居民区，停车场和银行中的人类活动。在交通运输领域，视觉对象跟踪也被广泛用于应对交通流量监控，交通事故检测，行人计数等。而且，MPEG-4视频压缩标准利用视觉对象跟踪来自动检测和跟踪视频中的运动目标。结果，更多的编码字节被分配给运动对象，而更少的编码字节被分配给冗余背景。视觉对象跟踪还具有多种人机交互应用程序，例如手势识别和移动视频会议

1.1. Overview of visual object tracking

通常，典型的视觉目标跟踪系统由四个模块组成：目标初始化，外观建模，运动估计和目标定位。
—目标初始化。这可以是手动或自动的。用户执行手动初始化，以用边界框或椭圆形注释对象位置。相反，通常通过物体检测器（例如，面部或人体检测器）来实现自动初始化。
—外观建模。这通常包括两个部分：视觉表示和统计建模。视觉表示关注于如何使用不同类型的视觉特征构造鲁棒的对象描述符。统计建模集中于如何使用统计学习技术为对象识别建立有效的数学模型。
—运动估计。这被表述为动态状态估计问题：xt = f（xt-1; vt-1）和zt = h（xt; wt），其中xt是当前状态，f是状态演化函数，vt-1是演化过程噪声，zt是当前观测值，h表示测量函数，wt是测量噪声。通常通过利用诸如线性回归技术之类的预测器来完成运动估计的任务，卡尔曼滤波或粒子滤波。
—对象定位。这是通过贪婪搜索或基于运动估计的最大后验估计来执行的

1.2. Challenges in developing robust appearance models

许多问题使强大的视觉对象跟踪变得非常具有挑战性，其中包括：（i）劣质相机传感器（例如，低帧频，低分辨率，低位深度和颜色失真）；（ii）挑战性因素（例如，非刚性物体跟踪，小尺寸物体跟踪，跟踪不同数量的物体以及复杂的姿态估计）；（iii）实时处理要求；（iv）跨具有非重叠视图的摄像机跟踪对象；（v）物体外观变化是由多种复杂因素（例如，环境光照变化，快速摄像机运动，完全遮挡，噪声干扰，非刚性形状变形，平面外物体旋转，以及姿势变化）引起的。这些挑战可能会导致跟踪性能下降甚至失败。
为了应对这些挑战，研究人员提出了使用不同的视觉表征和/或统计建模技术的各种外观模型。
这些外观模型通常关注视觉目标跟踪中的不同问题，因此具有不同的特性和特征。通常，他们尝试回答以下问题：—要跟踪的内容（例如，边界框，椭圆，轮廓，关节运动块，兴趣点和轮廓）？
—对于视觉对象跟踪，哪些视觉表示形式合适且鲁棒？
—对于不同的跟踪任务，不同的视觉表示形式有什么优点或缺点？
—哪种类型的统计学习方案适合视觉对象跟踪？
—在视觉对象跟踪过程中，这些统计学习方案的特性或特征是什么？
—在跟踪过程中应如何模拟摄像机/物体的运动？
这些问题的答案在很大程度上取决于跟踪任务的特定上下文/环境以及用户可用的跟踪信息。因此，有必要将这些外观模型分为几个特定于任务的类别，并详细讨论每个类别的代表性外观模型。基于这种考虑，我们提供了一项调查，以帮助读者获得宝贵的跟踪知识，并为他们的特定跟踪任务选择最合适的外观模型。此外，我们研究了开发新外观模型的几个有趣问题。

2. ORGANIZATION OF THIS SURVEY

在这里插入图片描述
Fig.3显示了此调查的组织，它由两个模块组成：视觉表示和统计建模。视觉表示模块专注于如何鲁棒地描述对象外观的时空特性。在该模块中，讨论了各种视觉表示，如Fig3左侧的树状分类法所示。这些视觉表征可以捕获不同级别（即本地和全局）的各种视觉信息。通常，局部视觉表示对图像区域的局部统计信息（例如，兴趣点）进行编码，而全局视觉表示反映图像区域的全局统计特征（例如，颜色直方图）。为了清楚地说明该模块，在Sec3中对视觉表示进行了详细的文献综述。
如图3的右侧所示，统计建模模块的灵感来自基于检测的跟踪，因此着重于使用不同类型的统计学习方案来学习用于对象检测的可靠统计模型，包括生成，判别式和混合生成判别式。在该模块中，设计了基于不同统计建模技术的各种跟踪跟踪检测方法，以促进对象/非对象类的不同统计属性。为了清楚地说明此模块，在Sec4中详细介绍了统计建模方案以进行基于检测的跟踪。
此外，还检查了许多用于视觉目标跟踪的源代码和视频数据集，以使读者更轻松地在Sec5中进行跟踪实验。最后，调查在Sec6中结束。特别地，我们还在Sec6针对未来的研究提出了一些有趣的问题。

2.1. Main differences from other related surveys

在这里插入图片描述
在最近的文献中，进行了几项相关的调查（例如[Geronimo等，2010； Candamo等，2010； Cannons 2008； Zhan等，2008； Kang和Deng 2007； Yilmaz等，2006； Forsyth等。2006年； Sun等。 2006年； Hu等。 2004; Arulampalam等。如TableI所示，已经进行了视觉对象跟踪研究，以研究最新的跟踪算法及其潜在应用。在这些调查中，调查的主题[Cannons 2008; Yilmaz等。 2006]与本文密切相关。具体来说，两项调查[Cannons 2008; Yilmaz等。 [2006年]专注于使用不同视觉特征或统计学习技术的低层跟踪技术，从而提供了非常全面和具体的技术贡献。
这两个调查之间的主要区别[Cannons 2008; Yilmaz等。 2006年]和本次调查总结如下。首先，本调查重点关注用于视觉对象跟踪的2D外观建模。相比之下，[Cannons 2008; Yilmaz等。
[2006年]涉及图3所示的所有模块。因此，与[Cannons 2008; Yilmaz等。 2006]更加全面。其次，此调查提供了各种外观模型的更详细分析。第三，[Yilmaz等人的调查。 2006年]将视觉对象跟踪分为三类：点跟踪，内核跟踪和轮廓跟踪（有关详细信息，请参见[Yilmaz et al。2006]中的图7）； [Cannons 2008]的调查对视觉对象跟踪中的每个跟踪问题进行了非常详细和全面的回顾。与这两个调查相反，此调查被表述为基于模块的通用体系结构（如图3所示），使读者可以轻松掌握视觉对象跟踪的关键点。第四，本次调查调查了大量利用新的视觉特征和统计学习技术的最新外观模型。
相比之下，调查[Cannons 2008; Yilmaz等。 [2006]更加关注用于视觉对象跟踪的经典和基本外观模型。

2.2. Contributions of this survey

该调查的贡献如下。首先，我们从特征构建的角度回顾视觉表征的文献。具体来说，我们将视觉表征按层次划分为局部和全局特征。其次，我们采用“基于检测的跟踪”的标准来审查现有的统计建模方案。根据模型构建机制，这些统计建模方案大致可分为三类：生成式，区分式和混合生成-区分式。对于每种类别，均会审查和讨论用于对象检测的不同类型的统计学习技术。第三，我们对每种类型的视觉表征或统计学习技术及其属性进行详细讨论。最后，我们检查了用于视觉目标跟踪的现有基准测试资源，包括源代码和数据库。

3. VISUAL REPRESENTATION

3.1. Global visual representation

在这里插入图片描述
全局视觉表征反映了对象外观的全局统计特征。通常，可以从以下几个主要方面进行研究：（i）原始像素表示；（ii）光流表示；（iii）直方图表示；（iv）协方差表示；（v）基于小波滤波的表示；（vi）主动轮廓表示。 Table II列出了几种使用全局视觉表示的代表性跟踪方法（即第1-14行）
—原始像素表示。作为计算机视觉的最基本特征，原始像素值由于其简单性和效率而被广泛用于视觉目标跟踪。原始像素表示直接利用图像像素的原始颜色或强度值来表示对象区域。这样的表示对于快速的对象跟踪是简单而有效的。在文献中，原始像素表示通常以以下两种形式构造：基于矢量的[Silveira and Malis 2007; Ho等。 2004; Li等。 2004; 罗斯等。 2008]和基于矩阵[Li等。 2007年； Wen等。 2009年； Hu等。 2010; Wang等。 2007年； Li等。 2008]。基于矢量的表示将图像区域直接展平为高维矢量，并且经常遇到小样本大小的问题。
通过尝试减轻小样本大小的问题，基于矩阵的表示由于其相对较低的维数特性，直接将2D矩阵或高阶张量用作对象描述的基本数据单元。
但是，仅原始像素信息不足以进行可靠的视觉对象跟踪。
研究人员尝试将其他视觉线索（例如形状或纹理）嵌入原始像素表示中。通常，通过融合其他视觉信息（如边缘）来丰富色彩特征[Wang等。 2007]和纹理[Allili and Ziou 2007]。
—光流表示。原则上，光流表示图像区域内每个像素的位移矢量的密集场，并且通常用于捕获对象的时空运动信息。通常，光流具有两个分支：恒定亮度约束（CBC）光流[Lucas and Kanade 1981; Horn和Schunck 1981； Werlberger等。 2009年； Sethi and Jain 1987； Salari和Sethi 1990； Santner等。 2010]和非亮度约束（NBC）光学流[Black and Anandan 1996; Sawhney和Ayer 1996； Hager和Belhumeur 1998；卑尔根等。 1992年；伊朗1999； Wu and Fan 2009]。 CBC光流对亮度恒定性有限制，而NBC光流处理光照条件变化的情况。
—直方图表示。直方图表示法在视觉对象跟踪中很受欢迎，因为它们在捕获对象区域内部视觉特征的分布特征方面具有有效性和效率。通常，它们具有两个分支：single-cue和multi-cue。
（i）single-cue直方图表示通常构造直方图以捕获对象区域内部的分布信息。例如，Bradski [1998]在色相饱和度值（HSV）颜色空间中使用颜色直方图表示对象，然后将颜色直方图嵌入到连续自适应均值漂移（CAMSHIFT）框架中以进行对象跟踪。但是，直接使用颜色直方图可能会导致空间信息的丢失。继[Bradski 1998]的工作之后，Comaniciu等人。 [2003]利用RGB颜色空间中的空间加权颜色直方图进行视觉表示，然后将空间加权颜色直方图嵌入到基于均值平移的跟踪框架中以进行对象状态推断。赵等[2010]将对象跟踪问题转换为匹配跨帧的RGB颜色分布的问题。结果是，目标定位的任务是通过使用快速差分EMD（搬土距离）来计算学习目标的颜色分布与候选区域的颜色分布之间的相似度。
（ii）multi-cue 直方图表示旨在对更多信息进行编码，以增强视觉表示的鲁棒性。通常，它包含三个主要成分：a）空间颜色； b）空间纹理； c）形状纹理；
对于a），采用两种策略，包括联合空间颜色建模和patch-division。联合空间颜色建模的目的是在[Yang et al。2005; Georgescu and Meer 2004]中描述物体外观在联合空间颜色空间中的分布特性（例如（x，y，R，G，B）。； Birchfield and Rangarajan 2005]）。patch-division策略是通过将跟踪区域划分为一组斑块，将空间信息编码为外观模型[Adam等。 2006年； Nejhum等。 2010]。通过考虑小块之间的几何关系，它能够捕获空间布局信息。
例如，亚当等。 [Adam等。 [2006年]构建了一个基于对象的基于直方图的特征描述的补丁分区视觉表示，如Fig4所示。最终的追踪位置是通过组合所有补丁的投票图（由灰度直方图表示）来确定的。组合机制可以消除由遮挡引起的离群投票图的影响。为了提高计算效率，Porikli [2005]引入了积分直方图的新概念，以计算笛卡尔数据空间中所有可能目标区域的直方图。这大大加快了均值漂移跟踪过程中直方图匹配的速度。
在这里插入图片描述
对于b），进行联合空间纹理概率估计，以捕获有关对象外观的分布信息。例如，Haralick等。 [1973]提出了一种空间纹理直方图表示形式，称为灰度共生矩阵（GLCM），该矩阵在指定方向和距离上以成对强度对共生信息进行编码。注意，[Haralick et al。 [1973年]需要调整不同的距离参数值，然后才能通过实验评估选择最佳距离参数值。继[哈拉里克等。 1973]，Gelzinis等。 [Gelzinis等。 [2007]提出了一种基于GLCM的直方图表示形式，不需要仔细选择适当的距离参数值。提出的直方图表示形式收集有关为多个距离参数值计算的共生矩阵的信息。
对于c），将有关对象外观的形状或纹理信息合并到直方图表示中，以进行可靠的视觉目标跟踪。例如，Haritaoglu和Flickner [2001]将梯度或边缘信息合并到基于颜色直方图的视觉表示中。与[Haritaoglu and Flickner 2001]相似，Wang和Yagi [2008]使用颜色和形状提示构建视觉表示。颜色提示由三种不同颜色空间中的颜色直方图组成：RGB，HSV和归一化rg。形状提示由梯度方向直方图描述。为了利用物体的纹理信息，Ning等人。 [2009]提出了一种用于视觉表示的联合颜色纹理直方图。局部二进制模式（LBP）技术用于识别对象区域中的关键点。他们使用识别出的关键点，为选择联合颜色纹理特征建立了置信度蒙版。
—协方差表示。为了捕获对象外观的相关信息，在[Porikli et al。 2006年； Tuzel等。 2006]。根据[Li et al。 2008年； Hu等。 2012]，协方差矩阵表示法可分为两个分支：基于仿射不变的黎曼度量和基于对数欧几里德黎曼度量。
（i）仿射不变的黎曼度量[Porikli等。 2006年； Tuzel等。 2006]基于以下距离测度：在这里插入图片描述 ;
其中
是两个协方差矩阵C1和C2的广义特征值： λjC1xj= C2xj，j 2 f1; ：：：; dg ，xj是第j个广义特征向量。继[Porikli等人， 2006年； Tuzel等。 [2006年]，Austvoll和Kwolek [2010年]使用区域内部的协方差矩阵来检测特征遮挡事件是否发生。可以通过在被遮挡的关键点周围的特定窗口中比较基于协方差矩阵的距离度量来完成检测任务。
（ii）对数-欧式黎曼度量[Arsigny等。 [2006]提出了欧几里得向量空间中两个协方差矩阵之间的距离度量。在数学上，两个协方差矩阵Ci和Cj的对数-欧几里德黎曼度量公式为：在这里插入图片描述
其中log是矩阵对数算符。为了便于描述，将对数-欧几里德黎曼度量下的协方差矩阵称为对数-欧几里得协方差矩阵。受到[Arsigny等人的启发。 [2006]，Li等。 [2008]采用图像特征的对数-欧几里得协方差矩阵进行视觉表示。由于Log-Euclidean协方差矩阵位于Euclidean向量空间中，因此可以轻松地将其平均值计算为标准算术平均值。由于这种线性特性，经典子空间学习技术（例如主成分分析）可以直接应用于对数-欧几里得协方差矩阵。继[李等人的工作。 2008年； Hu等。 [2012]，Wu等。 [2009; 2012]将使用2D Log-Euclidean协方差矩阵的跟踪问题扩展到使用高阶张量的跟踪问题，并旨在逐步学习低维协方差张量表示。受到[Li等人的启发。 2008年； Hu等。[2012]，Hong等。 [2010]提出了一种简化的协方差区域描述符（称为Sigma集），该描述符包含协方差矩阵的下三角矩阵平方根（通过Cholesky分解获得）（在[Li等，2008]中使用）。提出的协方差区域描述符通过一组矢量来表征对象外观的二阶统计量。同时，它保留了区域协方差描述符的优点[Porikli等。[2006年]，例如低尺寸，对噪声和光照变化的鲁棒性以及良好的区分能力。
—基于小波滤波的表示。原则上，基于小波滤波的表示利用小波变换来按不同比例或方向对对象区域进行滤波。例如，He等。 [2002]利用二维Gabor小波变换（GWT）进行视觉表示。具体来说，一个物体由具有高GWT系数的几个特征点表示。此外，李等。 [2009]提出了一种基于三层简化生物启发（SBI）特征（即图像层，S1层和C1层）的跟踪算法。通过对C1层中四个Gabor能量图进行展平操作，返回统一的SBI特征向量以对丰富的空间频率信息进行编码，如Fig5所示。
在这里插入图片描述 —活动轮廓表示。为了跟踪非刚性物体，近年来主动轮廓表示已被广泛使用[Paragios and Deriche 2000; Cremers 2006； Allili和Ziou 2007； Vaswani等。 2008年； Sun等。 2011]。通常，将活动轮廓表示（如图6所示）定义为有符号距离图Φ：
在这里插入图片描述，
其中Rin和Rout分别表示轮廓C的内部和外部区域，而d（x，y， C）是一个返回距点（此外，有效轮廓表示与能量函数相关联，该能量函数包括三个项：内部能量，外部能量和形状能量。内部能量项反映了对象轮廓上的内部约束（例如，x，y）。（基于曲率的演化力），外部能量项测量图像数据属于前景物体类别的可能性，形状能量表征物体轮廓上的形状先验约束。

3.1.1 讨论

如果没有特征提取，则原始像素表示对于视觉目标跟踪是简单而有效的。由于仅考虑关于对象外观的颜色信息，因此原始像素表示容易受到由照明变化引起的复杂外观变化的影响。
恒定亮度约束（CBC）光流捕获区域中每个像素的平移矢量的场信息，并可能假定亮度局部不变。但是，在由图像噪声，照度波动和局部变形引起的复杂情况下，CBC假设通常无效。为了解决这个问题，开发了非亮度约束光流，以对像素的上下文关系引入更多的几何约束。
single-cue直方图表示能够有效地编码对象区域内视觉特征的统计分布信息。由于其在表征被跟踪物体的空间结构信息方面的弱点，它经常受到背景干扰的影响，其背景颜色与被跟踪物体的颜色相似。为了捕获更多的空间信息，引入了空间颜色直方图表示形式以进行视觉目标跟踪。通常，它通过在联合空间颜色特征空间中对对象外观建模或采用 patch-division策略来对空间信息进行编码。但是，以上直方图表示未考虑对象外观的形状或纹理信息。结果，难以将具有相似颜色分布的物体与背景区分开。为了减轻该问题，提出了形状-纹理直方图表示，以将形状或纹理信息（例如，梯度或边缘）整合到直方图表示中，从而导致物体外观在照明和姿势上变化的鲁棒性。
使用协方差矩阵表示的优点如下：（i）它可以捕获对象外观的固有自相关特性；（ii）它提供了一种融合不同形式的不同图像特征的有效方法；（iii）它是低维的，导致计算效率高；（iv）可以比较不同大小或形状的区域；（v）易于实施；（vi）对照明变化，遮挡和形状变形具有鲁棒性。使用协方差矩阵表示的缺点如下：（i）由于采用逐像素统计，因此对噪声破坏很敏感；（ii）它丢失了很多有用的信息，例如纹理，形状和位置。
基于小波滤波的表示是通过小波变换对物体外观的局部纹理信息进行编码，这是与各种小波滤波器的卷积。结果，基于小波滤波的表示能够在多个尺度和方向上表征物体外观的统计特性（例如，Gabor滤波）。
主动轮廓表示旨在解决非刚性目标跟踪的问题。通常，主动轮廓表示采用带符号的距离图来隐式编码对象的边界信息。基于水平集演化，活动轮廓表示可以精确地分割具有复杂形状的对象。

3.2. Local feature-based visual representation

在这里插入图片描述
如Fig7所示，基于局部特征的视觉表示主要利用兴趣点或显着性检测来编码目标外观信息。通常，基于兴趣点的局部特征主要可分为七类：基于局部模板，基于分段，基于SIFT，基于MSER，基于SURF，基于角点特征，基于特征池和显着性基于检测。 TableII 的第15-22行中列出了几种使用基于局部特征的视觉表示的代表性跟踪方法。
—基于局部模板。通常，基于局部模板的视觉表示应使用一组零件模板来表示对象区域。与基于全局模板的视觉表示相比，它们能够有效地处理部分遮挡，并且灵活地塑造形状关节。例如，提出了一种分层的零件模板形状模型，用于人体检测和分割[Lin等。 2007]。形状模型与零件模板树关联，该树将人体分解为一组零件模板。通过将零件模板与测试图像进行分层匹配，提出的零件模板形状模型可以生成可靠的检测假设集，然后将其放入全局优化框架中以进行最终的人类定位。
—基于分割。通常，基于分割的视觉表示会将图像分段提示（例如，对象边界[Ren and Malik 2007]）纳入对象跟踪过程，从而获得可靠的跟踪结果。另一种选择是基于超像素分割，该分割旨在将像素分组为在感知上有意义的原子区域。例如，Wang等。 [2011]用超像素分割构造基于局部模板的视觉表示，如Fig 8所示。具体地说，对象的周围区域被分割为几个超像素，每个超像素对应一个局部模板。通过基于均值漂移聚类构建局部模板字典，通过将候选样本的超像素与字典中的局部模板相关联来预测对象状态。
在这里插入图片描述
-基于SIFT。通常，基于SIFT的视觉表示直接利用对象区域内部的SIFT特征来描述对象外观的结构信息。
通常，有两种基于SIFT的视觉表示形式：（i）基于SIFT的单个点；（ii）基于SIFT图。对于（i），Zhou等。 [2009]建立了一个基于SIFT点的视觉表示，并将该视觉表示与均值平移相结合以进行对象跟踪。具体而言，SIFT特征用于跨帧查找感兴趣区域之间的对应关系。同时，实施均值平移程序以通过颜色直方图进行相似度搜索。通过在SIFT和均值偏移之间使用相互支持机制，跟踪算法能够实现一致且稳定的跟踪性能。但是，跟踪算法可能会遭受背景杂波的困扰，这可能导致一对多SIFT特征匹配。在这种情况下，均值漂移和SIFT特征匹配可能会导致相互矛盾的决策。对于（ii），基于SIFT图的视觉表示基于SIFT特征点之间的基础几何上下文关系。例如，Tang和Tao [2008]使用基于SIFT的属性表示对象来构造关系图。该图基于稳定出现在多个连续帧中的SIFT特征。然而，这种稳定的SIFT功能在形状变形和照明变化等复杂情况下不太可能存在。
—基于MSER。基于MSER的视觉表示需要提取MSER特征以进行视觉表示[Sivic等。 2006]。随后，Tran和Davis [2007]为每个MSER特征构建了一个概率的像素级占用图，然后执行MSER特征匹配以进行对象跟踪。与[Tran和Davis 2007]相似，Donoser和Bischof [2006]也使用MSER功能进行视觉表示。为了提高MSER功能的稳定性，它们考虑了跨帧的时间信息。
—基于SURF。具有尺度不变性和旋转不变性的属性，SURF（加速鲁棒特征）是SIFT的变体[Bay等。 2006]。在可重复性，独特性和鲁棒性方面，它具有与SIFT相似的属性，但是其计算速度要快得多。受此事实启发，He等人。 [2009]使用基于SURF的视觉表示开发了跟踪算法。通过判断局部SURF特征与全局物体运动的兼容性，该跟踪算法对于外观变化和背景混乱具有鲁棒性。
-基于角点特征。通常，基于角点特征的视觉表示使用对象区域内的角点特征来描述对象外观的结构属性，然后跨框架匹配这些角点特征以进行对象定位。例如，Kim [2008]利用角点特征进行视觉表示，然后执行动态多级角点特征分组以生成一组角点轨迹。结果，可以很好地捕捉物体外观的时空特性。此外，Grabner等。 [2007]通过建立用于角点特征分类的增强判别模型，探索了对象和非对象角点特征之间的内在差异。
-基于局部特征池。最近，基于局部特征池的视觉表示已广泛用于基于集成学习的目标跟踪。通常，他们需要建立一个庞大的特征库（即大量的各种特征）来构建一组弱学习者，用于区分特征的选择。因此，不同种类的视觉特征（例如颜色，局部二元模式[Collins等，2005]，定向梯度直方图[Collins等，2005； Liu和Yu 2007； Yu等，2008]，Gabor具有Gabor的特征 FSSL可以独立或交错方式使用小波[Nguyen和Smeulders 2004]，以及Haar小波的类似Haar的特征[Babenko et al。2009]。例如，Collins等。 [2005]建立了一个颜色特征库，其元素是以下RGB分量的线性组合：在这里插入图片描述结果，通过从该池中选择有区别的颜色特征来定位对象。
Grabner和Bischof [Grabner和Bischof 2006]通过学习从类似Haar的特征[Viola and Jones 2002]，定向梯度直方图（HOG）[Dalal和Triggs 2005]以及局部二元模式中训练的几个弱分类器来构造整体分类器。（LBP）[Ojala等。 2002]。 Babenko等。 [2009]利用类似Haar的特征来构造弱分类器，然后应用在线多实例增强来学习用于目标跟踪的强整体分类器。
–基于显著性检测。原则上，显著性检测受关注焦点（FoA）理论的启发[Palmer 1999; [Wolfe 1994]模拟了人类的感知机制，以捕获图像的显着信息。这样的显著性信息由于其独特性和鲁棒性而有助于视觉对象跟踪。基于显著性检测，研究人员将生物视觉理论应用于视觉对象跟踪[Toyama and Hager 1996; Mahadevan和Vasconcelos 2009]。最近，Yang等。 [2007; [2010]构建了一种基于空间选择的注意力视觉表示方法。这种视觉表示方法采用两阶段策略来进行空间选择性注意。在第一阶段，提取注意区域（AR）池作为显着图像区域。
在第二阶段，执行判别学习以选择几个判别注意力区域进行视觉表示。最后，通过在两个连续帧之间匹配注意区域（AR）来完成对象跟踪的任务。

3.2.1. Discussion.

前述基于局部特征的表示分别使用局部模板，分割，SIFT，MSER，SURF，拐点，局部特征池或显著性检测。由于使用了不同的功能，这些表示具有不同的属性和特性。通过使用一组零件模板表示对象区域，基于本地模板的视觉表示能够对对象外观的局部空间布局信息进行编码，从而实现了对部分遮挡的鲁棒性。借助图像分割的功能，基于分割的视觉表示能够很好地捕获物体外观的固有结构信息（例如，物体边界和超像素），从而在具有挑战性的情况下提供可靠的跟踪结果。由于SIFT功能对于图像缩放，部分遮挡，照明变化和3D相机视点变化是不变的，因此基于SIFT的表示对于照明，形状变形和部分遮挡的外观变化具有鲁棒性。但是，它无法对对象的精确信息进行编码，例如大小，方向和姿势。基于MSER的表示试图找到几个最大稳定的极值区域，以实现跨帧的特征匹配。因此，它可以容忍像素噪声，但是会受到光照变化的影响。基于SURF的表示基于“加速的稳健特征”，具有缩放不变性，旋转不变性和计算效率的特性。角点表示旨在发现一组用于特征匹配的角特征。因此，它适合于跟踪具有大量拐角并且对非刚性形状变形和噪声的影响敏感的物体（例如汽车或卡车）。基于特征池的表示与需要大量局部特征（例如颜色，纹理和形状）的基于特征选择的集成学习紧密相关。由于使用了许多特征，特征提取和特征选择的过程在计算上很慢。基于显着性检测的表示旨在找到特定对象的判别显着区域池。通过跨帧匹配显着区域，可以实现对象定位。但是，其缺点是严重依赖于对噪声或剧烈照明变化敏感的显着区域检测。

3.3. Discussion on global and local visual representations

通常，全局视觉表示简单且计算效率高，可快速跟踪对象。由于强加的全局几何约束，全局视觉表示易受全局外观变化的影响（例如，由照明变化或平面外旋转引起）。为了处理复杂的外观变化，全局特征采用了多提示策略，以将多种类型的视觉信息（例如位置，形状，纹理和几何结构）合并到外观模型中。
相反，局部视觉表示能够捕获局部结构对象的外观。因此，局部视觉表示对于由照明变化，形状变形，旋转和部分遮挡引起的整体外观变化具有鲁棒性。
由于它们需要关键点检测，因此基于兴趣点的本地视觉表示通常会遭受噪声干扰和背景干扰。此外，区分特征选择通常需要的基于局部特征库的视觉表示，需要大量的局部特征（例如，颜色，纹理和形状），从而导致非常高的计算成本。受生物视觉启发，使用生物特征的局部视觉表示试图捕获对象区域内的显著或固有结构信息。该显著信息在视觉对象跟踪过程中相对稳定。然而，显著区域特征在很大程度上依赖于显著区域检测，该显著区域检测可能容易受到噪声或剧烈的照明变化的影响，从而导致跨帧潜在地存在许多特征失配。

4. STATISTICAL MODELING FOR TRACKING-BY-DETECTION

在这里插入图片描述近来，视觉目标跟踪已经被提出为按检测跟踪的问题（如Fig9所示），其中动态地执行统计建模以支持对象检测。
根据模型构建机制，统计建模可分为生成，区分和混合生成-区分三类。
生成外观模型主要集中在如何准确拟合对象类中的数据上。但是，在实践中很难验证指定模型的正确性。另外，总是在参数估计（例如，期望最大化）的过程中获得局部最优。通过引入在线更新机制，他们逐渐学习了前景对象区域信息的视觉表示，而忽略了背景的影响。结果，它们经常遭受由与对象类别相似的外观的背景区域引起的干扰。 TableIII 列出了基于生成学习技术的有代表性的检测跟踪方法。
相比之下，区分性外观模型将视觉对象跟踪作为二进制分类问题。它们旨在最大程度地区分对象和非对象区域之间的可分离性。此外，他们专注于发现高度有用的功能以进行可视对象跟踪。出于计算上的考虑，提出了在线变体以增量学习判别分类函数，以用于对象或非对象预测。因此，他们可以实现有效和高效的预测性能。
然而，区分性外观模型的主要局限性是严重依赖训练样本的选择（例如，通过自学习或共同学习）。Tab IV列出了基于判别学习技术的代表性检测跟踪方法。
生成性和区分性外观模型各有优缺点，并且在一定程度上是互补的。因此，研究人员提出了混合的生成－区分外观模型（HGDAM），以融合来自生成和区分模型的有用信息。由于采用启发式融合策略，HGDAM无法保证信息融合后的混合模型的性能要优于单个模型。另外，HGDAM可能会添加更多约束并引入更多参数，从而在实践中导致更大的灵活性。 Tab V列出了基于混合生成判别学习技术的代表性检测跟踪方法。
在这里插入图片描述

4.1. Mixture generative appearance models

通常，这种类型的生成外观模型会自适应地学习几个组件，以捕获对象外观的时空多样性。它们可以分为两类：WSL混合模型和高斯混合模型。
— WSL混合模型。原则上，WSL混合模型[Jepson等。 [2003]包含以下三个组件：W组件，S组件和L组件。这三个分量分别表示帧间变化，过去所有观察的稳定结构以及离群点（如被遮挡的像素）的特征。作为[Jepson et al。
2003]，另一个WSL混合模型[Zhou等，2003。 [2004]建议直接将像素方向的强度用作视觉特征，而不是使用滤波器响应（例如，在[Jepson et al.2003]中）。此外，在使用鲁棒统计模型对遮挡进行建模时，将L分量丢弃，并添加F分量作为最常观察到的固定模板。
—高斯混合模型。本质上，高斯混合模型[McKenna等。 1999年； Stauffer和Grimson 2000； Han和Davis 2005；于和吴2006; Wang等。 2007年]利用一组高斯分布来近似物体外观的基础密度函数，如图10所示。例如，提出了一个使用高斯密度函数混合的物体外观模型[Han and Davis 2005] 密度函数的数量及其相关参数，包括均值，协方差和权重。通过平均每个颜色通道中相邻像素的相应强度（例如3×3或5×5）来引入矩形特征。为了捕获被跟踪物体的时空描述，Wang等人。 [2007]提出了一种高斯空间色彩混合（称为SMOG）外观模型，它可以同时对空间布局和色彩信息进行编码。为了增强其鲁棒性和稳定性，Wang等人。进一步将多个线索集成到SMOG外观模型中，包括边缘点的三个特征：它们的空间分布，梯度强度和大小。但是，高斯混合模型很难选择正确数量的分量。例如，在实践中自适应地确定GMM中的组件编号k是一项艰巨的任务。结果，混合模型通常使用临时或启发式标准来选择k，从而导致跟踪不灵活。

4.2. Kernel-based generative appearance models (KGAMs)

基于内核的生成外观模型（KGAM）利用内核密度估计来构建基于内核的视觉表示，然后对对象定位进行均值平移，如图11所示。根据用于内核构建或模式寻找的机制，它们可以分为以下六个分支：颜色驱动的KGAM，形状集成KGAM，可感知比例的KGAM，非对称KGAM，通过全局模式搜索的KGAM和顺序内核学习的KGAM。
—颜色驱动的KGAM。通常，使用颜色驱动的KGAM [Comaniciu等。 [2003]建立了一个基于颜色直方图的视觉表示，该视觉表示通过空间平滑的各向同性核进行了规范化。
使用Bhattacharyya系数作为相似性度量，通过找到局部最大值的吸引域，对对象定位执行均值平移过程。
但是，跟踪器[Comaniciu等。 [2003年]仅考虑颜色信息，因此忽略了其他有用信息，例如边缘和形状，从而导致对背景杂波和遮挡敏感。另一种颜色驱动的KGAM [Leichter等。 2010]通过构造多个视图特定参考颜色直方图的凸包来处理多视图颜色变化。
—形状集成KGAM。通常，形状整合KGAM旨在在联合颜色形状空间中建立核密度函数。例如，形状整合KGAM [Leichter等。 [2009]建议使用颜色和边界提示来捕获对象外观的时空特性。它基于两个空间归一化和旋转对称的内核，用于描述有关颜色和对象边界的信息。
—可感知规模的KGAM。从本质上讲，可感知尺度的KGAM将以多个尺度捕获有关对象外观的时空分布信息。例如，提出了一种基于高斯的均值漂移特征的可感知尺度的KGAM [Collins 2003]，通过检测高斯差分（DOG）尺度空间滤波器的局部最大值来解决内核尺度选择问题。公式为：在这里插入图片描述
其中σ是a 比例因子。基于新的概率解释，另一个具有规模意识的KGAM [Nguyen等。提出了[2007]来解决最大似然问题，该问题将像素的坐标视为随机变量。结果，在联合空间色彩空间中，将核尺度选择的问题转换为最大似然优化的问题。
—非对称KGAM。常规的KGAM使用对称核（例如，圆形或椭圆形），从而在估计复杂的基础密度函数的过程中导致较大的估计偏差。为了解决这个问题，基于不对称内核均值偏移并自适应地更改内核的大小和方向，开发了非对称KGAM [Yilmaz 2007]。与对称均值偏移（仅需要估计图像坐标）相比，非对称KGAM需要在几次均值偏移迭代中同时估计图像坐标，比例尺和方向。引入不对称内核可以生成更精确的底层密度表示，从而减少估计偏差。此外，非对称核只是以前的径向对称和各向异性的概括。
—通过全局模式搜索的KGAM。由于均值移位的局部优化特性，较大的帧间对象平移会导致跟踪降级甚至失败。为了解决这个问题，沉等人。 [2007]提出了一种基于退火重要性抽样成功的退火均值漂移算法，该算法本质上是一种将权重分配给通过多个模拟退火运行获得的状态的方法[Neal 2001]。这里，状态对应于对象位置，而模拟退火运行与不同的带宽相关联以进行核密度估计。提出的退火均值漂移算法旨在随着带宽单调减少而进行均值漂移的渐进位置演化（即，均值漂移与最后一个带宽的收敛位置作为均值漂移与下一带宽的初始位置），最终寻求全局模式。
—顺序内核学习KGAM。批处理模式内核密度估计需要存储内核密度的非参数表示形式，从而导致较高的计算和内存复杂性。为了解决这个问题，Han等。 [2008]开发了用于实时视觉目标跟踪的顺序核密度近似（SKDE）算法。 SKDE算法顺序学习核密度的非参数表示，并随时间传播密度模式。
—讨论。颜色驱动的基于内核的跟踪算法主要考虑颜色信息。但是，复杂的因素可能会导致急剧的跟踪退化，包括缩放比例变化，背景杂波，遮挡和快速的对象移动。为了解决这个问题，进行了各种算法扩展。尺度感知跟踪算法的目的是捕获物体外观的多尺度空间布局信息。因此，它们能够在缩放比例急剧变化的情况下有效地完成跟踪任务。此外，边缘或形状信息对于精确的对象定位或抵抗背景干扰非常有帮助。基于这种考虑，人们开发了基于形状驱动的基于内核的跟踪算法，以将边缘或形状信息集成到内核设计过程中。通常，基于内核的跟踪算法利用对称内核（例如，圆形或椭圆形）进行对象跟踪，从而导致对复杂的基础密度函数的较大估计偏差。为了解决这个问题，提出了基于核的非对称跟踪算法，以更好地表示基础密度。传统的基于内核的跟踪算法往往会追求局部模型搜索，由于其局部优化特性，导致跟踪性能下降甚至失败。为了解决这个问题，研究人员从模拟退火和退火重要性抽样中借鉴了一些想法，从而为寻求全局模式寻求了可行的解决方案。在实践中，计算复杂度和内存消耗的因素对基于实时内核的跟踪算法有很大影响。因此，已经开发了用于内核密度估计的顺序技术，用于基于在线内核的跟踪。

4.3. Subspace learning-based generative appearance models (SLGAMs)

在可视对象跟踪中，目标通常与几个基础子空间关联，每个子空间都由一组基础模板跨越。为了方便起见，让τ表示目标，（a1 a2…aN）表示基础子空间的基础模板。在数学上，目标τ可以线性表示为以下形式：
在这里插入图片描述
其中（c1 c2…cN）是系数向量。因此，基于子空间学习的生成外观模型（SLGAM）专注于如何通过使用各种子空间分析技术有效地获取这些基础子空间及其关联的基础模板。例如，一些SLGAM利用特征值分解或线性回归进行子空间分析，而另一些则构造多个子空间来建模对象外观的分布特征。根据用于子空间分析的技术，它们可以分为两种类型：常规SLGAM和非常规SLGAM。

4.3.1. Conventional subspace models.

通常，常规子空间模型可以分为以下两个分支：线性子空间模型和非线性子空间模型。
—线性子空间模型。近年来，线性子空间模型（LSM）已广泛应用于视觉对象跟踪。根据使用的特征空间的维度，LSL可以分为（i）低阶LSM和（ii）高阶LSM。低阶LSM [Black and Jepson 1996; Ho等。 2004; Li等。 2004; Skocaj and Leonardis 2003； Wen等。 2012]需要构建基于向量的子空间模型（例如，图12中所示的主成分分析的本征空间），而高阶LSM需要构建基于矩阵或基于张量的子空间模型（例如，通过2D原理的2D本征空间）分量分析和张量本征空间）。
对于（i），提出了几种增量主成分分析（PCA）算法，以使线性子空间模型更有效。例如，一种增量鲁棒的PCA算法[Li等。 [2004]的开发将强大的分析纳入子空间学习的过程。类似于[Li等。 [2004年]，Skocaj和Leonardis [2003]将健壮的分析技术嵌入到增量子空间学习框架中，该框架对主子空间进行了顺序更新。学习框架考虑单个图像和图像内单个像素的加权影响。与前面提到的基于加权残差的鲁棒PCA算法不同，[Levy and Lindenbaum 2000; Brand 2002]利用增量奇异值分解（SVD）获得了子空间学习的封闭形式解决方案。
但是，这些增量PCA算法无法在子空间学习期间更新样本均值。为了解决这个问题，利用样本均值更新构建了基于R-SVD的子空间模型（即rank-R奇异值分解）[Ross等。 2008]。此外，王等。 [2012]应用偏最小二乘分析来学习用于对象跟踪的低维特征子空间。理论上，偏最小二乘分析能够对由少量潜在因子驱动的变量集之间的关系进行建模，从而获得可靠的对象跟踪结果。
对于（ii），提出了一组高阶LSM，以解决小样本大小问题，其中样本数远远小于样本维数。因此，许多研究人员开始建立基于矩阵或基于张量的子空间模型。例如，王等。 [2007]直接分析2D图像矩阵，并构建基于2DPCA的外观模型进行对象跟踪。除了前景信息之外，他们还考虑了背景信息，以避免因背景混乱而分散注意力。此外，李等。 [2007; 2010]和Wen等。 [2009]利用在线张量分解来构建基于张量的外观模型，以进行可靠的视觉对象跟踪。
—非线性子空间模型。 如果训练数据位于基础非线性流形上，则基于LSM的跟踪算法可能会失败。因此，研究人员试图利用非线性子空间学习来从目标样本中捕获潜在的几何信息。对于鲁棒的人类跟踪，使用非线性子空间模型[Lim等。 [2006年]是使用非线性降维技术（即局部线性嵌入）构建的。作为PCA的非线性概括，构建了基于核主成分分析（KPCA）的非线性子空间模型[Chin and Suter 2007]，以从目标样本中捕获经过核化的本征空间信息。

4.3.2. Unconventional subspace models.

通常，非常规子空间模型也可以用于视觉对象跟踪。大致可以将它们分为三类：稀疏/非稀疏表示，自回归建模和多子空间学习。
—稀疏/非稀疏表示。通常，一组目标样本与由几个模板跨越的基础子空间相关联。候选样本属于对象类别的可能性通常由候选样本与从线性表示派生的重构样本之间的残差确定。为了确保稀疏的线性表示，采用了l1正规化优化程序来获得稀疏的线性表示解决方案[Mei and Ling 2009]。基于[Mei and Ling 2009]中的稀疏表示技术，贾等人。 [2012]提出了一种跟踪方法，该方法通过使用块划分空间池方案（例如，平均池，最大池和对齐池）进一步提高了跟踪精度。此外，张等。 [2012]提出了一种基于lp，q规范化的最小二乘最小化成本函数的多任务稀疏优化框架。该框架不是解决独立的测试样本问题，而是通过解决lp，q-regularized群体稀疏性”问题来探索测试样本之间的相互依赖性。当p = q = 1时，框架会退化为流行的l1跟踪器[Mei and Ling 2009]。
为了实现l1跟踪器（Mei and Ling 2009）的实时性能，需要使用子空间模型[Li等。 2011年]是通过解决正交匹配追踪（OMP）优化问题（即随机投影）构建的，该问题比[Mei and Ling 2009]快6000倍。类似于[Li等。 [2011]，Zhang等。 [2012]利用压缩感知（随机投影）生成低维压缩特征描述符，从而实现实时跟踪性能。或者，Bao等。 [2012]利用流行的加速近端梯度（APG）方法来优化l1正则化最小二乘最小化问题，该问题具有二次收敛性以确保实时跟踪性能。提高l1追踪器效率的另一种方法[Mei and Ling 2009]是在评估测试样本的过程中减少l1最小化次数[Mei等。 2011]。通过估算粒子滤波中似然函数的最小误差范围，可以完成此任务，从而可以适度提高跟踪效率。从信号压缩的角度来看，Li等人。 [李等人。 [2013年]基于余弦基函数跨越的DCT子空间构造了紧凑的3D-DCT对象表示。借助快速傅立叶变换（FFT）的功能，所提出的3D-DCT对象表示能够有效地适应跟踪过程中的时空外观变化，从而在复杂情况下获得可靠的跟踪结果。
另一方面，线性模型的稀疏性对于鲁棒的对象跟踪是没有必要的，只要提供足够数量的模板样本即可，如[Li等人，2002年]。 2012]。因此，提出了一种非稀疏度量加权线性表示（具有封闭形式的解决方案），以有效地对被跟踪对象的固有外观属性进行建模[Li等。 2012]。
—自回归建模。 由于跟踪是一个与时间有关的过程，因此来自相邻帧的目标样本相互关联。为了表征跨帧的时间依赖性，近年来提出了多种外观模型。例如，提出了一种动态统计形状表示来从连续帧中捕获人的轮廓上的时间相关信息[Cremers 2006]。拟议的表示学习线性自回归形状模型，其中当前轮廓被以前的轮廓线性约束。然后将学习到的形状模型集成到水平集演化过程中，从而获得可靠的分割结果。
—多子空间学习。 为了捕获目标样本的分布多样性，几项努力建立了用于视觉表示的双子空间或多个子空间。例如，范等人。 [2008]提出了一种用于视觉跟踪的双子空间模型。该模型同时考虑了两个视觉提示：颜色外观和纹理外观。随后，模型使用协同训练策略在两个视觉提示之间交换信息。对于基于视频的识别和跟踪，Lee and Kriegman [2005]提出了一种通用的外观模型，该模型试图建立由几个子流形组成的面部外观流形。每个子流形对应于面部姿势子空间。此外，Kwon和Lee [2010]构建了一组基本的观察模型，每个模型都与被跟踪对象的特定外观流形相关。通过组合这些基本的观察模型，可以获得复合的观察模型，从而对组合外观变化具有鲁棒性。
在这里插入图片描述
—活动外观模型（AAM）。通常，AAM [Hou等。 2001年； Sclaroff and Isidoro 2003； Matthews and Baker 2004]需要结合两个组成部分：a）形状和b）外观，Fig13所示。对于a），AAM的形状s可以表示为基本形状s0和若干形状的线性组合。形状向量在这里插入图片描述，
其中形状s表示
它们是v个顶点的坐标网格。对于b），AAM的外观可以表示为基本外观A0（x）和几个外观图像的线性组合，这样

其中 x 2 s0 是位于基本网格s0内部的像素。
因此，给定测试图像，AAM需要最小化以下成本函数以进行模型拟合：
在这里插入图片描述
其中W（x; p）表示将像素转换为AAM的分段仿射扭曲。

4.3.3. Discussion

低阶线性子空间模型（LSM）通常学习用于视觉对象跟踪的基于矢量的视觉表示。为了提高跟踪效率，开发了几种增量LSM（例如，增量PCA）用于在线视觉对象跟踪。由于基于矢量的视觉表示受制于样本量较小的问题，因此研究人员构建了基于矩阵或张量的高阶视觉表示。但是，以上LSM可能假设对象外观样本位于基础线性流形上。在实践中，由于复杂的外部/内部外观变化，通常会违反此假设。基于这种考虑，开发了非线性子空间模型用于视觉表示。然而，这些非线性子空间模型的问题在于，由于非线性子空间学习（例如，非线性维数减少），它们在计算上是昂贵的。
近年来，提出了用于视觉目标跟踪的非常规子空间模型。这些模型或者对线性表示解施加稀疏约束，或者对子空间属性具有不同的假设。但是，稀疏约束的线性表示通常会导致很高的优化复杂度，这促使研究人员开发出一种有效的优化方法（例如APG和OMP）以实现实时跟踪性能。在没有常规的单子空间假设的情况下，提出了双子空间或多子空间算法来更精确地模拟目标样本的分布多样性，但要付出额外的计算成本。

4.4. Boosting-based discriminative appearance models

在过去的十年中，基于增强的判别外观模型（BDAM）由于其强大的判别学习能力而被广泛用于视觉对象跟踪。根据采用的学习策略，可以将它们分为自学习和共同学习BDAM。通常，自学习BDAM利用来自单一来源的判别信息来指导对象/非对象分类的任务，而共同学习BDAM利用多源判别信息进行对象检测。更具体地，自学习BDAM首先针对来自先前帧的数据训练分类器，然后使用训练后的分类器来评估当前帧处的可能对象区域。在对象定位之后，选择一组所谓的“正”和“负”样本来更新分类器。这些“正”和“负”样本由先前训练的分类器标记。由于跟踪误差，在跟踪过程中获得的训练样本可能会被噪声污染。因此，训练样本的标签不可靠。随着跟踪过程的进行，跟踪误差可能会累积，可能导致“漂移”问题。相反，共同学习的BDAM通常采用半监督策略来进行对象/非对象分类（例如，通过构建多个分类器进行共同训练）。
另一方面，BDAM还采用不同的视觉表示策略，即单实例和多实例。单实例BDAM需要精确的对象定位。如果没有精确的对象定位，这些跟踪算法可能会使用次优的正样本来更新其对应的对象或非对象判别式分类器，这可能会导致模型漂移问题。此外，物体检测或跟踪具有其固有的模糊性，即，即使对于人类标记者，精确的物体位置也可能是未知的。为了解决这种歧义，提出了多实例BDAM通过跟踪器位置周围的一组图像补丁来表示对象。因此，它们可以进一步分为单实例或多实例BDAM。

4.4.1. Self-learning single-instance BDAMs

在这里插入图片描述
基于在线助推[Oza and Russell 2001]，研究人员开发了各种计算机视觉应用程序，例如对象检测[Viola and Jones 2002]和视觉对象跟踪[Grabner等。 2006年； Grabner and Bischof 2006]。在这些应用中，发明了增强的变体以满足不同的需求。
—常规BDAM。如Fig14所示，常规BDAM首先从候选特征池中对每个特征进行判别式评估，然后选择排名最高的特征以进行跟踪过程[Grabner et al。 2006年； Grabner and Bischof 2006]。为了加速特征选择过程，Liu和Yu [2007]利用基于梯度的特征选择来构建BDAM。但是此BDAM需要事先给出一组初始的弱分类器，从而导致一般对象跟踪困难。上述BDAM在捕获特征之间的相关性信息时通常表现较差，导致所选特征的冗余以及无法补偿其他特征引起的跟踪误差。
为了解决这个问题，采用了一种特征加权策略，将特征池中的所有特征以不同的权重进行附加，然后进行加权融合进行对象跟踪。例如，Avidan [2007]使用在线学习的弱分类器的集合按像素分类来构建置信度图，这些分类器通过基于特征加权的增强方法进行训练。由于在特征选择期间需要存储和计算所有特征，因此基于特征加权的增强方法在计算上非常昂贵。此外，Parag等。 [2008]建立了一个基于特征加权的BDAM进行目标跟踪，弱分类器本身被自适应地修改以适应场景变化。即，当新数据到达时，弱分类器的参数被自适应地改变而不是替换。基于特征加权的BDAM的共同属性是它们依赖于固定数量的弱分类器。但是，此属性在实践中可能会限制跟踪器的灵活性。
—基于动态集成的BDAM。传统的BDAM需要预先构造固定数量的弱学习者，并且随着提升过程的进行迭代地选择这些弱学习者。但是，由于视觉对象跟踪的时变特性，它们不能有效地适应动态对象外观的变化。为了解决这个问题，基于动态集成的BDAM [Visentini等。 [2008]提出了根据整体误差值动态构造和更新弱分类器集合的方法。
—对噪声不敏感的BDAM。为了使视觉对象跟踪对噪声破坏更加鲁棒，文献中提出了一组BDAM。例如，Leistner等。 [2009]指出，通常用于升压的凸损耗函数对随机噪声高度敏感。为了增强鲁棒性，Leistner等人。 [2009]开发了一个称为在线GradientBoost的通用BDAM，其中包含一组对噪声不敏感的损失函数。从本质上讲，此BDAM是GradientBoost算法[Friedman 2001]的扩展，并且与AnyBoost算法[Mason等人，2005年]相似。 1999]。
—基于粒子滤波集成的BDAM。为了使视觉对象跟踪更加有效，研究人员将特征选择嵌入到粒子滤波过程中。例如，Wang等。 [2005]和Okuma等。 [2004]提出了两个使用粒子滤波的基于在线特征选择的BDAM，它们生成被跟踪物体的候选状态集，并使用AdaBoost的分类结果确定最终状态。
—转移基于学习的BDAM。 通常，大多数现有BDAM都有一个基本假设，即从当前帧收集的训练样本遵循与最后一帧相似的分布。但是，当发生“漂移”问题时，通常会违反此假设。为了解决“漂移”问题，许多新颖的BDAM [Wu等。 2012; 罗等。 [2011年]建议将样本分为两类：辅助样本（在最后一帧中获得）和目标样本（在当前帧中生成）。通过探索这些样本之间的内在邻近关系，提出的BDAM能够使用当前目标样本将辅助样本上的判别信息有效地转移到判别学习过程，从而获得可靠的跟踪结果。

4.4.2. Co-learning single-instance BDAMs

在这里插入图片描述
通常，由于使用自学习策略导致的错误累积，自学习BDAM遭受“模型漂移”问题。为了解决这个问题，研究人员采用了半监督学习技术[Zhu 2005]进行视觉对象跟踪。例如，Grabner等。 [2008]开发了基于半监督在线加速的BDAM。其主要思想是以一种半监督的方式制定提振更新过程，作为给定先验和在线分类器的融合决策，如Fig15所示。 [2009]利用协同训练策略在线学习了每个弱分类器，而不是最终的强分类器。协同训练策略动态生成一系列未标记的样本，以逐步修改弱分类器，从而导致对环境变化的鲁棒性。实践证明，协同训练策略可以使理论上的助推误差最小。

4.4.3. Multi-instance BDAMs

在这里插入图片描述为了处理对象定位的潜在歧义，将多实例学习用于对象跟踪，如Fig16所示。原则上，它通过跟踪器位置周围的一组图像块来表示对象。
—自学多实例BDAM。 例如，Babenko等。 [2009]通过一组图像补丁来表示对象，这些图像补丁对应于一个实例包，每个实例都是一个图像补丁。基于在线多实例增强，开发了一种跟踪系统以在线方式表征对象定位的歧义。跟踪系统假定所有带有正面标签的实例都是真实的“正”，但是在实践中有时会违反此假定。此外，跟踪系统仅基于当前帧训练弱分类器，并且可能过度拟合。而不是将每个袋子中的样品均等处理[Babenko等。 2009]，Zhang等。 [2012]提出了一种在线加权多实例跟踪器，该方法将样本重要性信息（即，靠近当前跟踪器位置的样本更为重要）纳入在线多实例增强学习过程中，从而获得了可靠的跟踪结果。为了描述弱分类器跨多个帧而不是当前帧的累积损失，Li等人。 [2010]提出了使用强凸弹性网正则器代替l1正则器的在线多实例BDAM，并进一步证明了所提出的多实例学习（MIL）算法具有累积损失（评估在线算法的累积损失） O（pT）的乘积，其中T是提升迭代的次数。
—共同学习多实例BDAM。 Zeisl等。 [2010]和李等。 [2013]在设计BDAM的过程中结合了半监督学习和多实例学习的优势。半监督学习可以合并更多先验信息，而多实例学习则侧重于不确定如何选择正样本进行模型更新的不确定性。

4.4.4. Discussion

如前所述，BDAM可以大致分类为：基于自学习的和基于共同学习的。基于自学习的BDAM采用自学习策略来学习对象/非对象分类器。他们利用先前学习的分类器来选择“正”和“负”训练样本，然后用所选的训练样本更新当前的分类器。结果，跟踪误差可能逐渐累积。为了解决此问题，开发了基于共同学习的BDAM，以捕获每个帧中许多未标记样本的区分信息。他们通常采用半监督的协同学习技术，以交错方式更新带标记和未标记样本的分类器，从而获得更可靠的跟踪结果。
另一方面，常规的BDAM采用单实例策略进行视觉表示，即，每个对象一个图像块。这种单实例视觉表示的缺点是严重依赖于精确的对象定位，否则，由于选择的训练样本不够理想，跟踪性能可能会大大降低。为了解决此问题，MIL被引入视觉对象跟踪。它考虑到了对象定位的固有歧义性，即通过跟踪器位置周围的一组图像块来表示对象。结果，基于MIL的跟踪算法可以实现鲁棒的跟踪结果，但是如果图像块无法精确捕获对象外观信息，则可能会失去准确性。
但是，所有BDAM都需要构建一个庞大的本地特征库以进行特征选择，从而导致计算速度较低。此外，由于它们专注于局部特征而不是全局特征，因此通常会获得局部最优的对象跟踪解决方案。

4.5. SVM-based discriminative appearance models (SDAMs)

SDAM旨在学习基于余量的判别SVM分类器，以最大程度地实现类间可分离性。 SDAM能够发现和记住信息量样本，作为对象/非对象分类的支持向量，从而具有很强的区分能力。有效的内核选择和有效的内核计算在设计健壮的SDAM中起着重要作用。根据所使用的学习机制，SDAM通常基于自学习SDAM和共同学习SDAM。
—自学SDAM。 原则上，自学习SDAM将以自学习方式构造用于对象/非对象分类的SVM分类器。例如，Avidan [2004]提出了一种离线SDAM，用于区分目标车辆和背景。由于SDAM事先需要大量的先验训练数据，因此将算法扩展到一般对象跟踪是一项艰巨的任务。继[Avidan 2004]中的工作之后，Williams等人。 [2005]提出了一种基于概率公式的SDAM，它允许随着时间传播观测分布。尽管具有鲁棒性，但建议的SDAM需要完全编码外观变化信息，这在跟踪过程中是不切实际的。田等。 [2007]利用线性SVM分类器的整体来构建SDAM。
这些分类器可以根据其在不同时期的判别能力进行自适应加权，从而可以应对较大的外观变化。上面的SDAM需要启发式地选择当前跟踪器位置周围的正样本和负样本，以更新对象/非对象SVM分类器。
为了避免训练样本选择的启发式和不可靠的步骤（通常需要精确估计对象位置），文献中采用了两种策略。一种基于结构化输出支持向量机（SVM）[Hare等。 2011; 姚等。 2012]，另一个基于SVM排名[Bai and Tang 2012]。这两种策略的关键思想是将结构化约束（例如，样本之间的相对排名或VOC重叠率）整合到最大边距优化问题中。例如，Hare等。 [2011]提出了一种基于内核化结构化SVM的SDAM，它在结构化输出空间中涉及无限数量的基于结构化损失（即VOC重叠率）的约束。此外，Bai and Tang [2012]因此将视觉对象跟踪作为弱监督的排序问题，该问题捕获了样本与真实目标样本之间的相对接近关系。
—共同学习SDAM。 通常，共同学习SDAM依赖于半监督/多内核学习来构建用于对象/非对象分类的SVM分类器。例如，唐等人。 [2007]采用协同训练SVM技术设计了半监督跟踪器。该跟踪器的缺点是，它需要几个初始帧才能生成足够的带标签的样本，从而在实践中缺乏灵活性。 Lu等。 [2010]和Yang等。 [2010]使用多内核学习（MKL）设计SVM分类器进行视觉对象跟踪。 MKL旨在根据不同特征（包括视觉单词的颜色信息和空间金字塔直方图）学习不同内核的最佳线性组合。

4.5.1. Discussion

借助最大余量学习的功能，SDAM具有很好的泛化能力，可以区分前景和背景，从而为对象定位提供了有效的SVM分类器。但是，SDAM的构建过程需要一组可靠的标记训练样本，由于一些复杂因素（例如，噪声破坏，遮挡，照度变化等）的影响，这是一项艰巨的任务。
因此，大多数现有的SDAM采取启发式策略来训练样本收集（例如，基于空间距离或基于分类得分），这可能导致跟踪过程的不稳定甚至“漂移”。为了解决这个问题，结构化SVM被用于对样本之间的结构关系（即VOC重叠率）进行建模，从而在泛化和对噪声的鲁棒性方面产生了良好的跟踪性能。在跟踪过程中，将样本硬分配给类别标签通常会导致分类误差累积。为了缓解这个问题，在跟踪过程中还引入了排序SVM（一种弱监督学习方法），其中样本之间的相对排序信息被合并到最大边距学习的约束中。
上述SDAM的共同点是对对象/非对象分类采取一种自学习策略，而无需考虑来自未标记数据或多个信息源的区分性信息。因此，共同学习SDAM被开发为通过半监督/多核学习将这种区分性信息集成到SVM学习过程中。
共同学习的SDAM出现了

4.6. Randomized learning-based discriminative appearance models (RLDAMs)

最近，随机学习技术（例如，Random Forest [Breiman 2001； Shotton et al。2008； Lepetit and Fua 2006]和Ferns [Ozuysal et al。2009]）已经成功获得引入视觉社区。原则上，随机学习技术可以通过执行随机输入选择和随机特征选择来构建多样化的分类器集合。与boosting和SVM相比，它们具有更高的计算效率，并且更易于扩展以处理多类学习问题。特别地，它们可以被并行化，从而可以执行多核和GPU实现（例如[Sharp 2008]），以大大减少运行时间。但是，由于它们的随机特征选择，它们对于不同场景的跟踪性能是不稳定的。
受随机学习的启发，在视觉对象跟踪领域提出了多种RLDAM，包括在线随机森林[Saffari等。 2009年； Santner等。 2010]，随机朴素的贝叶斯分类器[Godec等，2010年。 2010]和MIForests [Leistner等。 2010]。
例如，Godec等。 [2010]开发了一种基于在线随机朴素贝叶斯分类器的视觉对象跟踪算法。由于随机朴素贝叶斯分类器的计算和存储成本较低，因此开发的跟踪算法具有强大的实时功能，可处理长时间视频序列。与在线随机森林相反[Saffari等。 2009]，随机朴素贝叶斯分类器在训练阶段具有更高的计算效率和更快的收敛速度。此外，Leistner等。 [2010]提出了一个名为MIForests的RLDAM，它使用多实例学习来构造随机树，并将目标包内的隐藏类标签表示为随机变量。

4.7. Discriminant analysis-based discriminative appearance models (DADAMs)

判别分析是用于监督子空间学习的强大工具。原则上，其目标是找到具有高类间可分离性的低维子空间。根据使用的学习方案，它可以分为两个分支：常规判别分析和图驱动判别分析。通常，常规DADAM在向量空间中表示，而图驱动DADAM将图用于监督子空间学习。

4.7.1. Conventional DADAMs

通常，常规判别分析技术可以分为以下两个主要分支之一。
—单模DADAM。 原则上，单模DADAM具有潜在的假设，即对象类的数据遵循单峰高斯分布。例如，Lin等。 [2004]建立了基于增量Fisher线性判别分析（IFLDA）的DADAM。此DADAM将对象类建模为单个高斯分布，并将背景类建模为高斯分布的混合。在[Nguyen and Smeulders 2006]中，线性判别分析（LDA）用于通过Gabor滤波获得的局部纹理特征空间中的判别学习。但是，有一个潜在的假设，即对象和背景类别的分布近似为具有相等协方差的高斯分布。 Li等。 [2008]使用2D图像矩阵上的增量2DLDA构造DADAM。由于直接在这些2D矩阵上进行矩阵运算，因此DADAM在计算上是有效的。此外，构造单模DADAM的另一种方法是判别度量学习，该方法旨在通过线性投影将原始特征空间线性映射到新度量空间[Wang等。 2010; 江等。 2011; 江等。 2012]。在判别度量学习之后，将类别内样本之间的相似性最小化，同时将类别间样本之间的距离最大化，从而为有效的对象跟踪提供了有效的相似性度量。请注意，上述DADAM无法很好地处理具有多峰分布的对象和背景类。
—多模式DADAM。 本质上，多模式DADAM将对象类和背景类建模为高斯分布的混合体。例如，徐等。 [2008]利用自适应子类判别分析（SDA）（即基本SDA的扩展[Zhu and Martinez 2006]）进行对象跟踪。自适应SDA首先通过最近的邻居群集将数据样本划分为几个子类，然后为每个子类运行传统的LDA。

4.7.2. Graph-driven DADAMs

研究人员利用广义的基于图的判别学习（即图嵌入和图转导学习）来构建一组用于视觉对象跟踪的DADAM。通常，这些DADAM主要具有以下两个分支：
—基于图嵌入的DADAM。原则上，基于图嵌入的DADAM的目标是建立基于图的判别模型，该模型利用基于图的技术将高维样本嵌入到判别性低维空间中，以进行对象/非对象分类。例如，张等人。 [2007]设计了一个基于基于图嵌入的LDA的DADAM，它做出一个基本的假设，即背景类是不规则地以多种形式分布的，而对象类是遵循单一的高斯分布的。但是，在复杂的内部和外部对象外观更改的情况下，此基本假设不成立。
在这里插入图片描述
—基于图式传导学习的DADAM。通常，基于图的传导学习的DADAM旨在利用基于图的半监督的传导学习的能力来评估属于对象类别的候选样本的可能性。他们利用标记和未标记样本之间的固有拓扑信息来发现用于对象/非对象分类的适当决策超平面，如Fig17所示。 [2010]开发了一种基于图的传导学习的跟踪器。跟踪器利用标记的样本使类间的可分离性最大化，而未标记的样本则捕获样本的基本几何结构。

4.7.3. Discussion

DADAM的目标是学习决策超平面，以将对象类与背景类分离。但是，当对象类和背景类都具有多模式统计分布时，传统DADAM的性能较差。为了克服这一限制，采用多模式判别分析通过数据聚类来探索训练数据的分布。为了对常规DADAM进行非线性扩展，提出了基于图的DADAM。这些DADAM试图将判别分析的问题表达为图学习（例如图嵌入和图转换学习）的问题。但是，缺点是这些算法需要保留大量标记/未标记的样本以进行图学习，从而导致它们在实际跟踪应用中不切实际。

4.8. Codebook learning-based discriminative appearance models (CLDAMs)

原则上，CLDAM需要构造前景和背景码本，以从前景和背景中自适应捕获动态外观信息。最近，Yang等。 [2010a]使用两个不同的特征（RGB和LBP特征）构造了两个图像补丁码本，从而在处理遮挡，缩放和旋转方面具有鲁棒性。为了捕获更多的判别信息，可以使用自适应的特定于类别的密码本[Gall等。 2010]用于实例跟踪。该码本对有关对象部分的空间分布和外观的信息进行编码，并且可以以概率方式（即，对对象实例进行概率投票）转换为更多实例特定的码本。受检测跟踪思想启发，Andriluka等人。 [2008]建立了特定于对象的密码本，该密码本是通过对从一组训练图像中提取的局部特征（即形状上下文特征描述符和Hessian-Laplace兴趣点）进行聚类而构建的。然后将这些密码本嵌入基于部分的模型中以进行行人检测。
因此，CLDAM通常不仅从后台考虑歧视信息，还从其他对象实例考虑鉴别信息。但是，为不同的场景或物体构造通用的密码本非常困难。结果，有必要针对不同的场景或物体收集不同的训练样本，从而导致在实践中缺乏灵活性。另外，在实践中确定码本的大小是困难的任务。

4.9. Hybrid generative-discriminative appearance models (HGDAMs)

如[Ulusoy和Bishop 2005]所述，生成模型和判别模型各有优缺点，并且在一定程度上是互补的。因此，已经做出了很大的努力来提出各种混合的生成判别模型，以将生成模型和判别模型的优点结合在视觉对象跟踪中。这些混合的生成－判别模型旨在以单层或多层方式组合生成和判别模型。

4.9.1. HGDAMs via single-layer combination

通过单层组合的HGDAM旨在在同一层融合生成模型和判别模型。他们试图融合生成模型和区分模型的置信度得分，以产生比单独使用它们更好的跟踪结果。通常，它们具有两种组合机制：决策级组合和中间级组合。
—通过决策级组合的HGDAM。 原则上，此类HGDAM专注于如何有效融合生成模型和判别模型的置信度得分。例如，线性融合策略[Kelm等。 [2006]结合了判别模型和生成模型的对数似然性进行像素分类。在[Kelm et al。
2006]，组合生成-歧视模型的性能与纯生成模型和纯判别模型之间的平衡有关。此外，林等。 [Lin等。 2004]提出了HGDAM，它是Fisher线性判别分析的广义版本。该HGDAM由两个部分组成：观察子模型和判别子模型。
—通过中间级别组合的HGDAM。 原则上，通过中间级别组合的HGDAM旨在同时利用生成模型和判别模型中的低级特征和高级别置信度分数。例如，Yang等。 [2009]在提出的对象外观模型上施加了三个数据驱动的约束：（1）负数据；（2）自下而上的成对数据约束；（3）适应动力学。
结果，对象外观模型可以极大地缓解自适应漂移的问题，并且可以在各种非平稳场景中实现良好的跟踪性能。此外，Grabner等。 [2007]提出了一种基于称为Eigenboosting的增强算法的HGDAM，该算法要求视觉特征必须与重构能力同时区分。原则上，特征增强的目的是使修正的增强误差函数最小化，在该函数中将生成信息（即，使用鲁棒PCA从Haarlike二进制基函数生成的特征图像）集成为乘法先验。

4.9.2. HGDAMs via multi-layer combination

原则上，通过多层组合进行HGDAM的目标是在多层中组合来自生成模型和判别模型的信息。通常，这样的HGDAM可以分为两类：通过顺序组合的HGDAM和通过交错组合的HGDAM。
—通过顺序组合的HGDAM。 原则上，通过顺序组合的HGDAM旨在以顺序方式融合生成模型和判别模型的好处。即，他们使用一个模型的决策输出作为另一模型的输入。例如，Everingham和Zisserman [Everingham and Zisserman 2005]结合了生成型和判别型头部模型。训练有区别的树状结构分类器，以在具有三个自由度的较大姿势空间上进行有效的检测和姿势估计。随后，将生成的头部模型用于身份验证。此外，沉等。 [2010]开发了一种基于内核的广义HGDAM，它通过在线SVM学习来学习动态视觉表示。随后，将学习到的视觉表示合并到标准MS跟踪过程中。此外，雷等。 [2008]提出了一种使用顺序贝叶斯学习的HGDAM。所提出的跟踪算法包括三个模块。在第一个模块中，使用快速相关向量机算法来学习判别式分类器。在第二个模块中，学习了顺序高斯混合模型以进行视觉表示。在第三个模块中，讨论了具有三级层次结构的模型组合机制，包括学习者组合（第一级），分类器组合（第二级）和决策组合（第三级）。
—通过交织组合的HGDAM。原则上，通过交织组合的HGDAM的目标是以多层交织方式组合判别生成信息。即，一个模型的决策输出用于指导另一模型的学习任务，反之亦然。例如，Yu等。 [2008]利用协同训练策略以多层交织的方式组合来自SVM分类器和生成的多子空间模型的信息[Lee and Kriegman 2005]。

5. BENCHMARK RESOURCES FOR VISUAL OBJECT TRACKING

在这里插入图片描述
为了评估各种跟踪算法的性能，需要相同的测试视频数据集，基本事实以及竞争性跟踪算法的实现。
TableVI列出了当前可供公众使用的主要资源。
另一个重要问题是如何以定性或定量方式评估跟踪算法。通常，定性评估基于人类的直觉感知。即，如果计算出的目标区域覆盖更多的真实物体区域并且包含较少的非物体像素，则认为跟踪算法可以获得更好的跟踪性能。否则，跟踪算法的性能会变差。为了清楚起见，在TableVII中提供了几种代表性视觉表示的定性比较在计算速度以及处理遮挡，照明变化和形状变形能力方面。此外，TableVIII就计算速度，内存使用，在线适应性和可辨别性方面提供了几种基于统计模型的代表性外观模型的定性比较。
相反，定量评估在很大程度上依赖于地面实况注释。如果感兴趣的对象用边界框注释，则通过计算跟踪的边界框与地面实况之间的四个角的位置误差来执行定量评估。或者，可以计算出跟踪的边界框（或椭圆）与地面实况之间的重叠率以进行定量评估： r = A At t TSA Ag g ，其中At是跟踪的边界框（或椭圆），而Ag是基本事实。用边界框或椭圆形标注地面真相的任务既困难又费时。
因此，研究人员采用了基于点的注释策略进行定量评估。具体来说，他们要么将对象中心位置记录为基本事实以简化和提高效率，要么手动将对象区域内的多个点标记为基本事实以确保准确性（例如，在dudek面部序列中使用了七个标记点[Ross等 .2008]）。这样，我们可以计算跟踪结果和地面真实性之间的位置残差以进行定量评估。

6. CONCLUSION AND FUTURE DIRECTIONS

在这里插入图片描述
在这项工作中，我们介绍了用于视觉对象跟踪的2D外观模型的调查。
此次调查需要一个基于模块的组织来回顾2D外观模型中两个重要模块的文献：视觉表示和通过检测跟踪的统计建模方案，如Fig3所示。视觉表示更多地关注于如何鲁棒地描述了对象外观的时空特征，而用于检测跟踪的统计建模方案则更加着重于如何捕获对象区域的生成/区分统计信息。这两个模块紧密相关，彼此交错。在实践中，强大的外观模型不仅取决于有效的视觉表示，还取决于鲁棒的统计模型。
尽管近年来2D外观模型取得了长足进步，但仍有几个问题有待解决：—跟踪鲁棒性和跟踪精度之间的平衡。现有的外观模型无法同时保证跟踪的鲁棒性和跟踪精度。
为了提高跟踪精度，在外观模型中合并了更多的视觉特征和几何约束，从而在特定外观变化的情况下实现了精确的对象定位。但是，这些视觉特征和几何约束也会在经历其他外观变化方面降低外观模型的泛化能力。另一方面，为了提高跟踪的鲁棒性，外观模型放松了对精确对象定位的一些限制，因此允许对象定位的更多歧义。因此，平衡跟踪的鲁棒性和跟踪精度是一个有趣的研究主题。
—在简单和强大的视觉功能之间取得平衡。在计算机视觉中，设计简单而强大的视觉功能是最基本和重要的问题之一。通常，简单的视觉功能具有少量组件。结果，它们在计算上是有效的，但是可辨别性很低。相反，鲁棒的视觉功能通常具有大量组件。因此，它们在计算上很昂贵，并且具有复杂的参数设置。因此，如何在简单性和鲁棒性之间保持良好的平衡在视觉对象跟踪中起着重要的作用。
— 2D和3D信息融合。 2D外观模型计算效率高且易于实现。由于3D到2D投影的信息丢失，因此2D外观模型无法准确估计被跟踪对象的姿态，从而导致对遮挡和平面外旋转的敏感性。相比之下，3D外观模型能够精确地描述被跟踪对象的3D姿态，从而使遮挡和平面外旋转变得更加稳健。但是，3D外观模型需要较大的参数搜索空间来进行3D姿态估计，从而导致昂贵的计算成本。因此，结合2D和3D外观模型的优点是一项具有挑战性的研究课题。
为了加速3D外观模型的姿势估计过程，一种可能的解决方案是将2D外观模型的跟踪结果用作3D外观模型的初始化。但是，如何有效地从2D跟踪转换为3D跟踪仍然是一个未解决的问题
—智能视觉模型。受生物视觉的启发，提出了许多高级显着区域特征来捕获输入图像的显着语义信息。这些显着区域特征在跟踪过程中相对稳定，而它们严重依赖显着区域检测，而显着区域检测可能会受到噪声或剧烈照明变化的影响。不可靠的显着性检测会导致许多帧之间的功能不匹配。因此，有必要建立一个智能的视觉模型，该模型可以跨框架（如人类视觉所提供的图像）稳健地跟踪这些显着区域特征。
—摄像机网络跟踪。 通常，外观模型基于单个摄像机，该摄像机只能提供非常有限的跟踪对象的视觉信息。近年来，提出了使用多个重叠摄像机的几种外观模型以融合来自不同视点的不同视觉信息。这些外观模型通常处理由不同摄像机监视的同一场景中的对象跟踪问题。通常，他们无法独立地在不同但相邻的场景中完成同一对象的跟踪任务。在这种情况下，需要在大型摄像机网络中建立跟踪以长期监控感兴趣的对象。但是，如何将目标信息从一个摄像机子网传输到另一个摄像机子网是一个亟待解决的关键问题。
—低帧率跟踪。 由于处理速度和存储器使用的硬件限制，移动设备或微型嵌入式系统通常以低帧速率（例如，突然的物体运动）产生视频数据，这使得跟踪工作具有挑战性。在这种情况下，外观模型需要具有良好的归纳和适应能力，以在线应对跟踪过程中的对象外观变化。因此，构建具有用于实时应用的有效视觉建模和有效统计建模的鲁棒外观模型至关重要。

fjswcjswzy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Survey of Appearance Models in Visual Object Tracking

先讲了视觉目标跟踪在计算机视觉领域的重要性以及研究难点，还说了2D外观模型在目标追踪时时很重要的，在这篇文章中，研究人员提出了多种2D的外观模型为了...
复制链接

扫一扫