A Survey of Appearance Models in Visual Object Tracking 解读


具体细节详见 《A Survey of Appearance Models in Visual Object Tracking


在这里插入图片描述


一、 概述

通常典型的视觉目标跟踪由四个模块组成:目标初始化、外观建模、运动估计、目标定位

  • 目标初始化:可以手动也可以自动,手动圈出想要跟踪的目标,或者通过物体检测器来实现自动的初始化
  • 外观建模:包括两个部分:视觉表征和统计建模。视觉表征关注如何使用不同的特征来描述对象。统计建模关注如何使用统计的方法建立有效的数学模型
  • 运动估计:运动状态估计:xt = f(xt-1; vt-1)和zt = h(xt; wt),其中xt是当前状态,f是状态演化函数,vt-1是 演化过程噪声,zt是当前观测值,h表示测量函数,wt是测量噪声,当前状态是由当前状态的前一个状态和噪声所影响,当前观测值是由当前运动状态和当前的观测噪声决定的。通常通过利用诸如线性回归技术之类的预测器来完成运动估计的任务,卡尔曼滤波或粒子滤波
  • 对象定位:基于运动估计的最大后验估计来执行的

在这里插入图片描述

二、视觉表征

视觉表征可以捕获不同级别(局部和全局)的各种信息,通常,局部的视觉表征对图像区域的局部统计信息(如兴趣点)进行编码,而全局视觉表征反应图像区域的全局统计特征(如颜色直方图)
统计建模模块着重于使用不同类型的统计方法来用于对目标检测的统计模型,包括:生成式、判别式、混合生成判别式。

全局视觉表征

全局视觉表征反映了对象外观的全局统计特征。 通常,可以从以下几个主要方面进行研究:

  1. 原始像素表示:原始像素表示直接利用图像像素的原始颜色或强度值来表示对象区域。 这样的表示对于快速的对象跟踪是简单而有效的。 在文献中,原始像素表示通常以以下两种形式构造:基于矢量的,和基于矩阵。但是,仅原始像素信息不足以进行可靠的视觉对象跟踪。研究人员尝试将其他视觉线索(例如形状或纹理)嵌入原始像素表示中。 通常,通过融合其他视觉信息(如边缘)来丰富色彩特征和纹理。
  2. 光流表示:光流表示图像区域内每个像素的位移矢量的密集场,并且通常用于捕获对象的时空运动信息。 通常,光流具有两个分支:恒定亮度约束(CBC)光流和非亮度约束(NBC)光流,CBC光流对亮度恒定性有限制,而NBC光流处理光照条件变化的情况
  3. 直方图表示 : 直方图表示法在捕获对象区域内部视觉特征的分布特征方面很有效。 通常,它们具有两个分支:single-cue和multi-cue
    (i)single-cue直方图表示通常构造直方图以捕获对象区域内部的分布信息
    (ii)multi-cue 直方图表示旨在对更多信息进行编码,以增强视觉表示的鲁棒性。 通常,它包含三个主要成分:a)空间颜色; b)空间纹理; c)形状纹理;
    对于a),采用两种策略,包括联合空间颜色建模和patch-division
    对于b),进行联合空间纹理概率估计,以捕获有关对象外观的分布信息
    对于c),将有关对象外观的形状或纹理信息合并到直方图表示中
  4. 协方差表示:协方差矩阵表示法可分为两个分支:基于仿射不变的黎曼度量和基于对数欧几里德黎曼度量,优点如下:(i)它可以捕获对象外观的固有自相关特性; (ii)它提供了一种融合不同形式的不同图像特征的有效方法; (iii)它是低维的,计算效率高; (iv)可以比较不同大小或形状的区域; (v)易于实施; (vi)对照明变化,遮挡和形状变形具有鲁棒性。 缺点如下:(i)由于采用逐像素统计,因此对噪声破坏很敏感; (ii)它丢失了很多有用的信息,例如纹理,形状和位置。
  5. 基于小波滤波的表示 :基于小波滤波的表示利用小波变换来按不同比例或方向对对象区域进行滤波
  6. 活动轮廓表示:为了跟踪非刚性物体,近年来主动轮廓表示已被广泛使用,采用带符号的距离图来隐式编码对象的边界信息。 活动轮廓表示可以精确地分割具有复杂形状的对象

局部视觉表征

基于局部特征的视觉表示主要利用兴趣点或显着性检测来编码目标外观信息。通常,基于兴趣点的局部特征主要可分为七类:基于局部模板,基于分段,基于SIFT,基于MSER,基于SURF,基于角点特征,基于特征池和基于显着性检测。

  1. 基于局部模板。 通常,基于局部模板的视觉表示应使用一组部分的模板来表示对象区域。 与基于全局模板的视觉表示相比,它们能够有效地处理部分遮挡,并且灵活地塑造形状关节。
  2. 基于分割。 通常,基于分割的视觉表示会将图像分割成小块,再纳入目标跟踪过程,从而获得可靠的跟踪结果。 另一种选择是基于超像素分割,目标的周围区域被分割为几个超像素,每个超像素对应一个局部模板。 通过基于均值漂移聚类构建局部模板字典,通过将候选样本的超像素与字典中的局部模板相关联来预测目标状态。
  3. 基于SIFT。 通常,基于SIFT的视觉表征直接利用对象区域内部的SIFT特征来描述对象外观的结构信息。基于SIFT的表示对于照明,形状变形和部分遮挡的外观变化具有鲁棒性。 但是,它无法对对象的精确信息进行编码,例如大小,方向和姿势。
  4. 基于SURF。 具有尺度不变性和旋转不变性的属性,SURF是SIFT的变体。 在可重复性,独特性和鲁棒性方面,它具有与SIFT相似的属性,但是其计算速度要快得多。
  5. 基于角点特征。 通常,基于角点特征的视觉表征使用对象区域内的角点特征来描述对象外观的结构属性,然后跨框架匹配这些角点特征以进行目标定位。
  6. 基于局部特征池。基于局部特征池的视觉表征已广泛用于基于集成学习的目标跟踪。 通常,他们需要建立一个庞大的特征库(即大量的各种特征)来构建一组弱分类器,用于区分特征的选择。
  7. 基于显著性检测。 研究人员将生物视觉理论应用于视觉目标跟踪,旨在找到特定对象的判别显着区域池。 通过跨帧匹配显著区域,可以实现目标定位。 但是,其缺点是严重依赖于对噪声或剧烈照明变化敏感的显著区域检测。

三、统计模型

根据模型构建机制,统计建模可分为生成式,判别式和混合生成-判别式三类。

生成外观模型

在实践中很难验证指定模型的正确性。 另外,总是在参数估计(例如,期望最大化)的过程中获得局部最优。 通过引入在线更新机制,他们逐渐学习了前景对象区域信息的视觉表示,而忽略了背景的影响。 结果,它们经常遭受由与对象类别相似的外观的背景区域引起的干扰。
分为:

  • 混合外观模型,分为两类:WSL混合模型和高斯混合模型
  • 基于内核的生成外观模型(KGAM):分为:(1)颜色驱动的KGAM (2)形状集成KGAM (3)可感知尺度的KGAM (4)非对称KGAM (5)通过全局模式搜索的KGAM (6)顺序内核学习KGAM
  • 基于子空间学习的生成外观模型(SLGAM):分为常规子空间模型和非常规子空间模型,(1)其中常规子空间模型又分为线性子空间模型和非线性子空间模型,(2)非常规子空间模型分为稀疏/非稀疏表示,自回归建模,多子空间学习,活动外观模型(AAM)

判别性外观模型

判别性外观模型将视觉目标跟踪作为二进制分类问题。 它们旨在最大程度地区分对象和非对象区域之间的可分离性。 然而,判别性外观模型的主要局限性是严重依赖训练样本的选择。
其中,判别性外观模型分为

  • 基于增强的判别外观模型(BDAM),又分为自学习单一样本BDAMs,共同学习单一样本BDAMs,多样本BDAMs
  • 判别性SVM分类器外观模型,又分为自学习SDAM,共同学习SDAM
  • 基于随机学习的判别性外观模型
  • 基于判别分析的判别性外观模型,又分为常规DADAMs,图驱动DADAM
  • 基于码本学习的判别性外观模型

混合的生成-判别外观模型(HGDAM)

生成性和判别性外观模型各有优缺点,并且在一定程度上是互补的。 因此,研究人员提出了混合的生成-判别外观模型(HGDAM),以融合来自生成和判别模型的有用信息,
其中分为

  • 通过单层组合的HGDAM
  • 通过多层组合进行HGDAM
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值