(LCT)Long-term Correlation Tracking 解读


原文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2015/app/3B_103.pdf

摘要:

在本文中,解决了长期视觉跟踪的问题,目标对象由于变形,突然运动,重度遮挡和视线不佳而出现明显的外观变化。 在这种情况下,将跟踪任务分解为对象的平移和尺度估计。 表明了时间上下文之间的相关性大大提高了位移估计的准确性和可靠性,并且从最有把握的帧中学习判别性相关过滤器以估计尺度变化是有效的。 此外,训练在线随机蕨分类器,以在跟踪失败的情况下重新检测物体。 在大规模基准数据集上的大量实验结果表明,该算法在效率,准确性和鲁棒性方面均优于最新方法。

1. 简介:

首先,由于两个连续帧之间的变化很小,因为时间间隔很小(小于0.04秒),并且即使对象被严重遮挡,目标周围的上下文也可能保持不变。 因此,重要的是对由目标对象及其上下文组成的外观的时间关系进行建模。 开发了一种基于相关滤波器的核岭回归方法,以对由目标对象及其周围环境组成的外观模板进行编码。 由提出的特征构造的自适应模板具有抗重遮挡,快速运动和大变形的能力。作者提出这种算法,该算法使用相关滤波器对长期视觉跟踪进行有效建模,以对时间上下文信息进行建模。
其次,增强长期跟踪器的检测模块,以(i)估计尺度变化,以及(ii)在发生长期遮挡或视线不佳的跟踪失败时重新检测物体。 对于尺度估计,从最可靠的帧中为目标训练了另一个相关滤波器。 使用方向梯度直方图(HOG)作为特征来构建多尺度目标金字塔,并详尽地搜索最佳尺度。 对于对象重新检测,使用随机蕨类分类器训练在线检测器,并在激活窗口时扫描窗口。
跟踪通常被认为是一种在线学习问题,目的是学习一种将目标与背景区别开来的外观分类器。 第一个问题是, 如果使用更稳定的样本(例如仅第一帧中的目标)训练分类器,则分类器对遮挡更鲁棒,并且较不容易因噪声样本的模型更新而导致漂移。 但是,这种方法没有考虑外观变化,并且对于长期跟踪不太可能表现良好。 另一方面,在嘈杂的更新情况下,高度自适应的在线分类器很容易导致漂移。 该算法通过使用两个基于具有不同自适应率的相关滤波器的回归模型对时间上下文相关性和目标外观进行建模,从而有效缓解了这一难题。 时间上下文回归器设计用于针对明显的变形和严重的遮挡积极地适应平移估计。 保守地调整目标回归变量并将其应用于外观金字塔以进行尺度估计。 因此,该方法有效地适应了外观变化并减轻了漂移的风险。 在线分类器的另一个问题是sampling ambiguity,其中困难负样本对于训练鲁棒分类器是必需的,

负样本中哪些是困难负样本(hard negative)呢?困难负样本是指哪些容易被网络预测为正样本的proposal,即假阳性(false positive),如roi里有二分之一个目标时,虽然它仍是负样本,却容易被判断为正样本,这块roi即为hard negative,训练hard negative对提升网络的分类性能具有极大帮助,因为它相当于一个错题集。

,而二进制标签对于表示样本之间的空间关系不太有效。 通过将相关过程转换为傅立叶域中的元素乘积,我们的回归模型将输入要素的所有循环移位视为具有高斯加权标签的训练样本,从而减轻了采样问题。

这项工作的主要贡献是通过结合补充的重新检测方案将跟踪任务有效地分解为目标对象的平移和尺度估计,从而解决了长期视觉跟踪的问题。 平移估计依赖于对显着变形,照明变化,背景杂波和突然运动具有鲁棒性的时间上下文回归模型。 装备有估计的平移,构建目标金字塔以通过使用目标回归模型确定尺度变化。 此外,提出了以在跟踪失败的情况下激活目标重新检测,并通过使用目标回归器来决定是否采用重新检测的结果。

2.相关工作和问题背景

相关跟踪:MOSSE CSK KCF DSST
检测跟踪。 TLD Struck

3.跟踪组件

将任务分解为对象的平移和尺度估计,其中使用时间相关性来估计平移 通过学习判别相关滤波器来进行上下文和尺度估计。 另外,我们使用在线随机蕨训练互补检测器,以在跟踪失败的情况下重新检测目标物体。

3.1 相关跟踪

在这里插入图片描述
w:滤波器
x m , n \boldsymbol{x}_{\boldsymbol{m},\boldsymbol{n}} xm,n:图像块x有M×N像素
y(m,n): x m , n \boldsymbol{x}_{\boldsymbol{m},\boldsymbol{n}} xm,n作为训练样本生成的具有高斯函数标签的y(m,n)
ϕ \boldsymbol{\phi } ϕ:表示到内核空间的映射,
λ:是正则化参数(λ≥0)

由于标签y(m, n)不是二进制的,因此学习的滤波器w包含高斯岭回归系数而不是二进制分类器。 使用快速傅立叶变换(FFT)来计算相关性,该目标函数被最小化为 w = ∑ m , n a ( m , n ) ϕ ( x m , n ) \boldsymbol{w}=\sum_{\boldsymbol{m},\boldsymbol{n}}^{}{\boldsymbol{a}\left( \boldsymbol{m},\boldsymbol{n} \right) \boldsymbol{\phi }\left( \boldsymbol{x}_{\boldsymbol{m},\boldsymbol{n}} \right)} w=m,na(m,n)ϕ(xm,n),系数a由下式定义:
在这里插入图片描述
在(2)中, F \mathcal{F} F表示离散傅立叶算子,跟踪任务是通过计算响应图为新窗口中搜索窗口大小为M×N的图像帧中的图像块z来执行的
在这里插入图片描述
其中 x ^ \boldsymbol{\hat{x}} x^表示学习的目标外观模型, ⊙ \odot 是hadamard乘积。 因此,通过搜索最大值的位置来检测目标的新位置。

哈达玛积(Hadamard product)是矩阵的一类运算,若A=(aij)和B=(bij)是两个同阶矩阵,若cij=aij×bij,则称矩阵C=(cij)为A和B的哈达玛积,或称基本积

与先前的工作不同,作者基于一帧中的相关滤波器训练两个回归模型。
在这里插入图片描述

如图2所示,时间上下文模型Rc同时考虑了目标上下文和周围上下文,因为在遮挡的情况下,此信息在时间上保持稳定,可用于将目标与背景区分开。 为了消除响应图的边界不连续性,通过余弦窗口对目标和上下文的特征通道进行加权。 对于回归模型Rc,当目标进行遮挡,变形和突然运动时,自适应估计其平移非常重要。 因此,Rc模型以学习速率α逐帧更新为
在这里插入图片描述
其中t是当前帧的索引。
与现有的跟踪方法相比,在第一帧中使用目标来测量后续帧中跟踪结果的置信度,我们从最可靠的跟踪目标中学习了另一个判别回归模型Rt。 具体来说,我们使用 y ^ \boldsymbol{\hat{y}} y^的最大值来确定跟踪结果的置信度。 为了保持模型的稳定性,我们使用预定义的阈值 T a \mathcal{T}_{\boldsymbol{a}} Ta,并且如果 max ⁡ ( y ^ ) ⩾ T a \max \left( \boldsymbol{\hat{y}} \right) \geqslant \mathcal{T}_{\boldsymbol{a}} max(y^

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值