论文阅读-understanding and diagnosing visual tracking

1. 介绍

研究对象:Visual tracking

In this paper, we focus on the most general type of visual tracking problems, namely, short-term single-object model-free tracking
近些年的一些评估标准:Online tracking benchmark (OTB),the Visual object tracking challenge (VOT)等,这些评估系统主要评估追踪系统的准确率和鲁棒性等。这些评估标准评估的判断跟踪系统的优缺点的能力却不佳。本文提出一种框架用于理解与诊断追踪系统。

跟踪算法相关

分为五部分进行比分析

1. 运动模型(Motion Model):

当对一帧图像进行估计时,需要基于上一帧的估计,在当前帧中产生一系列的可能会包含目标的候选区域或边界框
Based on the estimation from the previousframe, the motion model generates a set of candidateregions or bounding boxes which may containthe target in the current frame.

2. 特征提取(Feature Extractor):

对每个候选区域提取特征,用这些特征来表征这些候选区域
The feature extractor represents each candidate in the candidate set using some features.

3. 观测模型(Observation Model):

对候选区域的的特征进行分析,来确定该区域是否为目标区域
The observation model judges whether a candidate is the target based on the featuresextracted from the candidate.

4. 模型跟踪器(Model Updater):

用来更新Observation Model,控制更新的策略以及何时更新
and frequency of updating the observation model. It has to strike a balance between model adaptation anddrift.zs

5. 总体后处理(Ensemble Post-processor):

当一个跟踪系统中含有多个跟踪器时,要对多个跟踪器的跟踪结果进行一个组合分析,得到最终的跟踪结果
When a tracking system consists of multiple trackers, the ensemble postprocessor takes the outputs of the constituent trackers and uses the ensemble learning approach to combine them into the final result.

Visual tracking 分类

generative trackers(产生式跟踪)

Generative trackers typically assume a generative process of the appearance of the target and search for the most similar candidate in the video.
representative methods

  • (robust) PCA
  • sparse coding
  • dictionary learning

discriminative trackers(判别式跟踪)

They usually train a classifier to separate the target from the background.
classifier

  • boosting
  • multiple-instance learning
  • structured output SVM
  • Gaussian process regression
  • deep learning

benchmarks

  • AUC
  • Visual Object Tracking (VOT)
  • overlap rate
  • robustness
  • other benchmarks

3. Our Proposed Framework

框架

  1. 运动模型(Motion Model):

  2. 特征提取(Feature Extractor):

  3. 观测模型(Observation Model):

  4. 模型跟踪器(Model Updater):

  5. 总体后处理(Ensemble Post-processor):

跟踪系统的流程:

首先,在第一帧,用给定的目标区域(一般是由用户框出来的或者事先指定好目标区域坐标)初始化observation model;
然后在接下来的每一帧中,motion model根据对前面帧的估计,先产生候选区域框,
然后observation model计算出每个候选区域框是目标物体的概率,计算得到的最高概率的候选区域框将被选择为当前帧的估计结果(即目标所在的区域)。
基于observation model的输出,model updater决定observation model是否需要更新,如果需要,更新频率是什么。
最后,如果一个追踪系统中如果有好几个追踪器,ensemble post-processor会将各个追踪器产生的预测结果综合/融合成一个更加精确的预测作为结果输出来。

4. Validation Setup

下面,作者使用VTB1.0进行实验。
作者采用两种度量标准。
第一个是,AUC重合率曲线(AUC of the overlap rate curve)。在每一帧中,追踪系统预测出的目标物体位置区域A与真实的目标物体位置B,重合率a=(A∩B)/(A∪B),设定一个阈值(0~1之内变化),当重合率大于阈值时,则该帧为Success,对于整个视频所有的帧,我们便可以计算出成功率(Success rate)。
另一个度量标准是位置误差曲线。追踪系统预测出的目标物体位置区域与真实的目标位置区域的中心点的距离,以像素为单位。
作者设计了一个基础的追踪系统。该系统采用粒子滤波(particle filter)框架作为motion model,将灰度图像的像素作为特征,将逻辑回归(logistic regression)作为observation model。对于model updater,作者采用一个简单的规则:候选区域框中的最高得分如果在阈值之下,那么该模型将会更新。该基础的追踪系统只有一个追踪器,因此不包含ensemble post-processor部分。该模型的效果如下(下图黑色曲线):

5. 模块分析(Validation and Analysis)

5.1. Feature Extractor

测试方法:

常用特征:灰度特征(Raw Grayscale),颜色特征( Raw Color),Haar-like特征(Haar-like Features),HOG特征(HOG),HOG+颜色特征(HOG + Raw Color)。基础模型的特征提取采用这几种不同的特征进行测试

结果:

看出采用HOG+颜色特征得到的跟踪效果最好,准确率比基础模型提高了约20%。

结论:

特征提取是一个跟踪系统中最重要的组成部分,合适的特征可以显著的提高跟踪的效果。为跟踪开发一种高效的特征表示方法仍是一个开放的问题。

5.2. Observation Model

测试方法:

采用四种不同的观测模型:逻辑回归(Logistic Regression)、岭回归( Ridge Regression)、SVM(SVM)、结构化输出SVM(Structured Output SVM ,SO-SVM)。用最差的原始灰度特征和最好的HOG+颜色特征。分别与这四种观测模型进行搭配进行跟踪测试。

结果:

这里写图片描述
Figure 4是在弱特征(raw grayscale)下进行的实验,Figure 5是在强特征(HOG + raw color)下进行的实验。当采用灰度特征时,最强的SO-SVM模型的效果比最弱的岭回归高了约10%;而在采用HOG+颜色特征时,四种不同的模型的最终效果差别很小。

结论:

当选取的特征较弱时不同的观测模型才会对跟踪效果有影响,当选用较强的特征时,不同的模型之间的效果差异很小,所以即便使用教科书上的简单分类也可以得到满意的效果。

5.3. Motion Model

测试方法:

采用了如下3个模型进行实验。
1. 粒子滤波(Particle Filter):https://en.wikipedia.org/wiki/Particle_filter
2. 滑动窗口(Sliding Window):
3. 径向滑动窗口(Radius Sliding Window):
它们之间的区别是:粒子滤波可以保存每一帧的估计概率,当有多个候选区都有很高概率为目标区域时,它们会被为下一帧图像保留下来,用于跟踪出错后的恢复;滑动窗口只选择概率最大的候选区域,删除其他的。粒子滤波也容易处理尺度变化、长宽比变化甚至是旋转以及倾斜的情况,而滑动窗口由于需要大量的计算开销,所以很难处理这些情况。

结果:

01:
这里写图片描述
在正常的情况下三种模型的表现没有明显的区别。
02:
在复杂场景,相机有抖动的情况下,particle filter效果可能会更好。 然后,作者又在快速移动和尺度变化的情况做了实验(Figure 7上半部分为快速运动的实验结果,下半部分为尺度变化的实验结果)。
这里写图片描述
快速移动以及尺度变化下,可以看出粒子滤波在尺度变化时表现更好快速移动时较差而滑动窗口在快速移动时的表现更好尺度变化时表现较差。
03:
如何做到二者兼顾呢,考虑粒子滤波中转化参数的选择问题,当搜索区域过小时快速移动的情况下容易跟丢目标,当搜索区域过大时又容易因为背景的干扰而产生漂移。当我们设定参数的时侯是用像素作为单位的,但是不同的视频的分辨率可能不同,因此一个绝对的像素值作为参数时,对于不同的视频就可能表现效果有很大差异。
采用标准化的方法,将视频都调整到同样的尺度下,实验结果如下:
这里写图片描述
可以看到调整大小后的跟踪效果要好于调整之前的,尤其在目标快速移动的情况下。
因此经过标准化后的粒子滤波既可以很好的处理尺度变化的情况也可以很好的处理快速移动的情况。

结论:

同时这个实验也能发现,通常情况下,与特征提取以及观测模型相比,运动模型对于跟踪效果的影响要小的多。
但是,在跟踪目标有尺度变化以及快速移动的情况下,为了更好的跟踪效果,合适的运动模型参数的选择也对跟踪表现至关重要。

5.4. Model Updater

测试方法:

一般来说,由于每个observation model的更新都是不同的,所以model updater一般说明更新条件和频率。
作者采用了如下两种模型:
1. 只要当目标的置信度低于阈值时,就更新模型。这样做的目的是确保目标总是有高的置信度。这个也是作者实验的默认的更新模型。
2. 当目标的置信度与背景置信度的差值低于阈值时,更新模型。这种技巧简单的维持了正样本与负样本之前较大的差距,而不是使目标有一个比较高的置信度。这个方法对遮挡或者目标消失的情况比较有帮助。

结果:

Figure 9是第一种模型的结果,Figure 10是第二种模型的结果
这里写图片描述
这里写图片描述
可以看出,不同的阈值,对结果的影响超过了10%。两种方法的最好的结果都差不多,但是模型二好的结果的范围比较宽一点。

结论:

尽管模型的更新经常被视为工程上的技巧(treated as engineering tricks),而且对结果的影响也很重要的,需要更加深入的研究,但是很少有人把工作重点放在这部分。

5.5. Ensemble Postprocessor

测试方法:

从上面的分析中可以看出来,单个追踪器有时候由于参数的设置等原因,结果会变得不是很稳定。而ensemble post-processor这部分就可以解决这一局限。在这一部分测试中,包括6个追踪器,分别是Logistic Regression、Ridge Regression、SVM、SO-SVM、DSST和TGPR。选DSST和TGPR是因为它们都是效果最好的跟踪器之一,同时可以增加跟踪器的多样性,因为前四种跟踪器的motion model是一样的。

结果:

01:
六种跟踪器单独的跟踪效果如下:
这里写图片描述
实验采用两种方式进行后处理,一种是文献4“A superior tracking approach: Building a strong tracker through fusion.”中的方法(This paper first proposed a loss function for bounding box majority voting and then extended it to incorporate tracker weights, trajectory continuity and removal of bad trackers.)作者采用该文章里面的basic model和online trajectory optimization这两个模型。
另一种是来自文献36“Ensemble-based tracking: Aggregating crowdsourced structured time series data.”的方法。(The authors formulated the ensemble learning problem as a structured crowdsourcing problem which treats the reliability of each tracker as a hidden variable to be inferred. Then they proposed a factorial hidden Markov model that considers the temporal smoothness between frames.)作者采用该文章里面的ensemble based tracking (EBT) without self-correction模型。
为了研究多样性是如何影响最后的效果的,作者做了两个实验,一个是只有前四个追踪器结合的效果(Figure 12),另一个是所有6个追踪器结合的效果(Figure 13),其中Basic和Online…是文献4的方法,EBT是文献36的方法)
这里写图片描述
这里写图片描述
经过上面的对比可以看出,跟踪器多样性高时的跟踪效果要优于多样性低时的效果,甚至当跟踪器多样性低时的跟踪效果也会略好于最好的单个跟踪器的效果。

结论:

ensemble post-processor模块可以提高追踪系统的效果,尤其是当追踪器多样性比较高的时候。这部分是通用且有效的,但是它的研究最少。

6. 当前框架的局限性(Limitations of Current Framework)

在有些方法中,部分组件是紧密的耦合在一起的没办法拆分为单独的组件
虽然精度对于目标跟踪来说很重要,但速度也是在实际运用中的重要因素,作者的框架中并没有去优化速度,最好的组合在matlab中的处理速度只有10帧每秒

7. 结论和展望(Conclusion and Future Work)

文章中通过将系统分成多个组成部分来进行详细分析,确定不同部分对于跟踪效果的影响大小。我们发现,即使是使用一些课本上非常基础的各个组件的组合,只要能仔细的设计各个组件,依然能得到state-of-art的跟踪效果。
1. 特征提取是跟踪器中最重要的部分;
2. 当特征足够好时用什么观测模型(observation model)对于跟踪结果并不是那么的重要;
3. 模型跟踪器也能显著的影响跟踪的效果,但当前这方面的研究还不多;
4. ensemble post-processor是相当普遍且有效的。
5. 注意一些运动模型和模型跟踪器的细节可以显著的提高跟踪效果。
启发:如何寻找轻量且有效的特征表现,principled的模型更新策略,以及更先进的组合方式
部分词汇不知道怎么翻译,直接用英文写了。还没有运行代码。

相关资源:

论文作者主页:http://winsty.net/tracker_diagnose.html
参考:
http://blog.csdn.net/lxy_2011/article/details/72967409
http://blog.csdn.net/u010515206/article/details/53406721
http://blog.csdn.net/hjl240/article/details/52225988#

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的学徒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值