VOT2018总体性能以及各个算法的分析

最新推荐文章于 2022-09-23 08:33:29 发布

weixin_40645129

最新推荐文章于 2022-09-23 08:33:29 发布

阅读量1w

点赞数 3

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_40645129/article/details/83867277

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一，VOT相关

短期跟踪

(1)假定在跟踪失败后不能重新检测成功，而是要reset。

(2)短期实时跟踪，要求预测边界框的速度快于或等于视频帧率。

长期跟踪

(1)在短期跟踪的基础上，执行re-detection。

(2)给短期跟踪与长期跟踪提供的唯一信息是第一帧的边界框。

短期跟踪测试数据集：

UAV123，OTB，VOT。

长期跟踪测试数据集：

LTB35:UAVL20，Youtobe，AMP。

长期跟踪

(1)长期跟踪的视频至少长2分钟，20-25fps，最好长10分钟。

(2)相比短期跟踪，长期跟踪要处理目标长时间离开视野的情况。竞赛要求长期跟踪需要报告每一帧中目标位置和目标的出现置信度。

(3)长期跟踪器需要两个部分组成，短期部分和检测部分来检测目标重新出现的状况。此外，需要短期组件和检测器之间的交互机制，其适当地更新视觉模型并在目标跟踪和检测之间切换。其中TLD就是一个开创性的工作，启发了后续的长期跟踪工作。

二，VOT结果分析

1. 短期挑战跟踪结果

(1)有4个tracker基于CNN匹配，一个基于循环神经网络，14个应用孪生网络（SiamFC，SiamRPN），34个基于相关滤波（C-COT，ECO）。

(2)62%的tracker用到了CNN特征。

(3)冠军是LADCF，运行在CPU上。paper，code。

针对视觉特性：

(1)总体最佳表现者仍然处于每个属性排名的顶部，但是没有一个跟踪器在每个属性方面始终优于所有其他跟踪器。

(2)影响跟踪最大的视觉特征是：遮挡、光照改变和运动改变。

2. 短时实时挑战跟踪结果

(1)Top 10 中的八个都是孪生结构SiamFC的扩展。这些跟踪器使用预训练的CNN特征，最大化相关定位精度，需要GPU。

(2)两个使用相关滤波的tracker在CPU上运行。

2.1. short trem公开测试集挑战的top 10:

(1) LADCF, (2) MFT, (3) SiamRPN, (4) UPDT, (5) RCO, (6) DRT, (7) DeepSTRCF1, (8) SA_Siam_R, (9) CPT , (10) DLSTpp

方法还是相关滤波占主流（DCF），在前十中占据8位，还有两个是Siamese nets。

鲁棒性最好的前4：

(1) MFT, (2) LADCF, (3) RCO, (4) UPDT

精确度最好的前5：

(1) SiamRPN, (2) SA_Siam_R, (3) FSAN, (4) DLSTpp

影响这两个指标的来自两个方面：遮挡和尺度的变化

2.2. short term 实时挑战组的top 10：

(1) SiamRPN, (2) SA_Siam_R, (3) SA_Siam_P, (4) SiamVGG, (5) CSRTPP, (6) LWDNTm, (7) LWDNTthi, (8) CSTEM, (9) MBSiam, (10) UpdateNet

长期跟踪挑战结果（VOT2018新添加挑战）

(1)排名第一的是MobileNet-based tracking by detection algorithm (MBMD) 。

最具挑战性的属性是快速运动，视野外，宽高比变化和完全遮挡。

三，主要算法分析

short-term challenge

LADCF:Learning Adaptive Discriminative Correlation Filters via Temporal Consistency preserving Spatial Feature Selection for Robust Visual Tracking

该模型的新颖之处在于利用目标和背景的互补信息，自适应地优化出最具鉴别性地空间特征；结合时序图像序列的平滑性，保持不断更新的跟踪器能够始终处在一个较低维度的流形空间上。在此模型基础上利用深度特征实现在复杂场景中的有效跟踪。

代码：https://github.com/XU-TIANYANG/LADCF

MFT Multi-solution Fusion for Visual Tracking（没发表）

基于相关滤波算法的MFT跟踪器。首先，结合连续卷积算子的不同多分辨率特征。其次，为了提高鲁棒性，训练了使用不同特征的多解，并优化融合了多解来预测目标位置。最后，不同的Res50、SE-Res50、Hog和CN特征组合应用于不同的跟踪情况。

代码：https://github.com/ShuaiBai623/MFT

SiamRPN（长时第二名）：Distractor-aware Siamese Networks for Visual Object Tracking

作者借鉴了meta learning的思想，通过模版帧来学习检测分支RPN的网络参数，就是预训练模版分支，然后利用第一帧的目标特征输出一系列weights，而这些weights，encode了目标的信息，作为检测分支RPN网络的参数去detect目标。

作者把这称为一个“one shot detection”的任务，当然，这样做最大的问题在于训练，要训练好这样一个model，需要大量的数据的，这也是为什么作者在ILSVRC和Youtube BB这种超大的数据集上训练的原因。

代码：https://github.com/foolwood/DaSiamRPN

UPDT：Unveiling the Power of Deep Tracking

在ECO的基础上特征网络换成了ResNet-50，并加入Data Augmentation提取特征，浅层特征和深度特征分治，两部分自适应融合。该论文探究了深度特征和手工特征分别对目标跟踪的影响，主要分析了不同样本扩增方法和精度/鲁棒性平衡两方面的影响，得出两类特征应该分别处理的结论，深度特征更应该关注于鲁棒性，手工特征更关注精度，使用了样本扩展和调节精度/鲁棒性平衡参数的方法可以显著提高深度特征下的跟踪性能；提出了一种新的跟踪测试结果质量测量方法，结合这种方法计算融合两种特征下响应结果的加权系数，得到最终的响应map。

代码：无

RCO ：Continuous Convolution Operators with Resnet features（没公布）

RCO跟踪器基于CFWCR的扩展。采用连续卷积算子综合融合多分辨率特征，提高了相关滤波跟踪器的性能。卷积神经网络中较浅、较深的特征集中在不同的目标信息上。为了改进协同求解方法，充分利用各种特征，提出了一种多解的方法。为了预测目标位置。

代码：无

DRT ：Correlation Tracking via Joint Discrimination and Reliability Learning

该论文提出一个可以联合训练包含判别性和可靠性信息的跟踪模型，也是基于循环样本和FFT加速优化的框架。

主要贡献有二，其一是提出了在原始目标函数中加入局部响应一致限制，目的是使的目标内的响应的差异减小；其二是提出了可靠性权重，用来描绘目标框内不同区域的重要性。同时原始滤波器和可靠性权重是在线联合学习的。

代码：https://github.com/cswaynecool/DRT

DeepSTRCF：Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking

STRCF在DCF的基础上加入了spatial和temporal正则项，且tracking过程中只使用上一帧的信息。STRCF的目标函数是凸函数，可以ADMM（交替方向乘子算法）来得到全局最优。

代码：https://github.com/lifeng9472/STRCF

SA Siam R：A Twofold Siamese Network for Real-Time Object Tracking With Angle Estimation

SA Siam R是基于Siamese网络的tracker SA-Siam的变体。SA Siam R采用了三种简单而有效的机制，即角度估计、空间掩码和模板更新，以达到比SA-Siam更好的性能。首先，该框架包含了搜索区域的多尺度多角度候选对象。根据响应映射隐式估计被跟踪对象的尺度变化和角度变化。其次，当目标的长宽比为1:1时，采用空间掩模，以降低背景噪声。最后，采用移动平均模板更新来处理目标变形较大的硬序列。

代码：无

long-term challenge

第一名

MBMD Learning regression and verification networks for long-term visual tracking

匹配网络通过预训练能够适应在线跟踪时目标外观的变化，但是对干扰物区分度不够；分类网络能够很好地区分出干扰物，却很难适应目标外观的变化。如果用单一网络（匹配或分类），很难通过网络输出判断目标是否出现在当前帧，并执行全图搜索。所以本算法采用定期更新短期部分，不更新长期部分。应用了边框分类网络和基于MobileNet的匹配网络。分类网络在给定第一帧目标的搜索区域内对目标对象的边界框进行分类。分类网络使用SSD-MobileNet架构，其参数在在线跟踪期间是固定的。

代码：https://github.com/xiaobai1217/MBMD

weixin_40645129

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
VOT2018总体性能以及各个算法的分析

一，VOT相关短期跟踪(1)假定在跟踪失败后不能重新检测成功，而是要reset。(2)短期实时跟踪，要求预测边界框的速度快于或等于视频帧率。长期跟踪(1)在短期跟踪的基础上，执行re-detection。(2)给短期跟踪与长期跟踪提供的唯一信息是第一帧的边界框。短期跟踪测试数据集：UAV123，OTB，VOT。长期跟踪测试数据集：LTB35:UAVL20，Youto...
复制链接

扫一扫