《Understanding and Diagnosing Visual Tracking Systems》论文笔记

리앙 챙凉笙~

于 2022-01-21 17:16:48 发布

阅读量482

点赞数 2

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/qq_45081529/article/details/122624999

版权

本人为目标追踪初入小白，在博客下第一次记录一下自己的论文笔记，如有差错，恳请批评指正！！

论文相关信息：《Understanding and Diagnosing Visual Tracking Systems》

理解和诊断视觉跟踪系统（ICCV 2015）

前言

文章提出了一种全新的框架，主要将跟踪器分解为五个部分，并且分析了每个部分对跟踪器得影响及重要性。

1、目标跟踪主要组成

1.运动模型（Motion Model）

基于前一帧的估计，运动模型生成一组候选区域或边界框，其中可能包含当前帧中的目标

2.特征提取（Feature Extractor）

特征提取器使用一些特征表示候选集中的每个候选。

3.观测模型（Observation Model）

根据从候选对象中提取的特征判断候选对象是否为目标。

4.模型更新（Model Updater）

主要控制更新观测模型的策略和频率。它必须在模型适应和漂移之间取得平衡。

5.集成方法（Ensemble Method）

当跟踪系统由多个跟踪器组成时，集成后处理器接收组成跟踪器的输出，并使用集成学习方法将它们组合成最终结果。

2、目标跟踪主要流程

输入—目标初始化—特征提取—目标模型—目标搜索—输出

具体过程：跟踪系统通常通过用第一帧中目标的给定边界框初始化观测模型来工作。在随后的每一帧中，运动模型首先基于来自前一帧的估计生成用于测试的候选区域或建议。候选区域或建议被输入观察模型，以计算它们成为目标的概率。然后选择具有最高概率的一个作为当前帧的估计结果。基于观察模型的输出，模型更新器决定观察模型是否需要任何更新，以及如果需要，更新频率。最后，如果有多个追踪器，追踪器返回的边界框将被集成后处理器组合以获得更精确的估计。

3、各部分分析

特征提取（Feature Extractor）

特征提取部分主要采用以下五种特征进行比较以此来观察特征提取对于跟踪器的影响：

1. 原始灰度（Raw Grayscale） 2.原始颜色（Raw Color）3. 类哈尔特征（Haar-like Features） 4.HOG 5.HOG + Raw Color

结论:最佳方案(HOG +原始颜色)优于基本模型(原始灰度)20%以上。特征提取器是跟踪器最重要的组成部分。使用适当的特征可以显著提高跟踪性能。

观测模型（Observation Model）

观测模型部分主要采用以下四种模型进行比较以此来观察特征提取对于跟踪器的影响：（只采用了判别式）：逻辑回归（Observation Model） 岭回归（Ridge Regression） 支持向量机（SVM） 结构化输出支持向量机(SO-SVM)

结论:当特征较弱时，不同的观察模型确实会影响性能。然而，当功能足够强大时，性能差距就会缩小。

运动模型（Motion Model）

考虑了三种常用的运动模型：粒子滤波（Particle Filter） 滑动窗口（Sliding Window） 半径滑动窗口（Radius Sliding Window）

结论:通常情况下，运动模型对性能的影响较小。然而，在尺度变化和快速运动的情况下，正确设置参数仍然是获得良好性能的关键

模型更新（Model Updater）

主要采用两种方法：

1.第一种方法是每当目标的置信度低于阈值时更新模型。这样做可以确保目标始终有很高的信心。这是我们基本模型中使用的默认更新程序。

2. 第二种方法是每当目标和背景示例的置信度之间的差异低于阈值时更新模型。这种策略只是在正面和负面例子之间保持足够大的差距，而不是强迫目标具有高度的信心。当目标被遮挡或消失时，它可能会有帮助。

结论:尽管在论文中，模型更新程序的实现通常被视为工程技巧，特别是对于区分性跟踪器，但它们对性能的影响通常非常显著，因此值得研究。

集成处理器（Ensemble Post-processor）

观测模型部分主要采用以下四种模型进行比较以此来观察特征提取对于跟踪器的影响：（只采用了判别式）

1.本文首先提出了一种用于包围盒多数投票的损失函数，然后将其推广到包含跟踪器权重、轨迹连续性和去除不良跟踪器。本文采用了两种方法：基本模型法和在线轨迹优化法。

2. 作者将集成学习问题描述为一个结构化的众包问题，该问题将每个跟踪器的可靠性视为一个待推断的隐藏变量。然后，他们提出了一个考虑帧间时间平滑性的阶乘隐马尔可夫模型。我们采用的基本模型称为基于集合的跟踪（EBT），无需自校正。

结论:集成后处理器可以显著提高性能，尤其是当跟踪器具有高分集时。

总结

1、本文对跟踪器提出了一个全新的而架构，即可以将跟踪器分为五部分：运动模型（motion model）、特征提取器（feature extractor）、观察模型(observation model)、模型更新器(model updater)和集成后处理器(ensemble post-processor)。

2、通过将视觉跟踪系统分解为各个组成部分并仔细分析，我们得出了一些有趣的结论。首先，特征提取器是跟踪器中最重要的部分。第二，如果特征足够好，观察模型就不那么重要了。第三，模型更新程序可以显著地影响结果，但目前实现该组件的原则性方法不多。最后，集成后处理器是非常通用和有效的。