Aggregation Signature for Small Object Tracking（论文翻译）

最新推荐文章于 2024-08-05 17:16:26 发布

MJ5513

最新推荐文章于 2024-08-05 17:16:26 发布

阅读量742

点赞数 1

分类专栏：目标跟踪论文翻译文章标签：目标跟踪计算机视觉

本文链接：https://blog.csdn.net/MJ17709005513/article/details/120988763

版权

目标跟踪论文翻译专栏收录该内容

22 篇文章 15 订阅

订阅专栏

本文提出了一种新的聚合签名技术，专门用于小目标跟踪，特别是在面临突然大漂移时。通过结合显著性信息和在线学习机制，聚合签名能够更准确地检测和跟踪小目标。实验表明，这种方法在多个数据集上提高了跟踪性能，特别是在处理图像中的背景抑制和漂移检测方面。

摘要由CSDN通过智能技术生成

论文地址：https://arxiv.org/pdf/1910.10859.pdf

数据集：https://github.com/bczhangbczhang/

摘要

小目标跟踪成为一项越来越重要的任务，但在计算机视觉领域却鲜有人涉足。最大的挑战来自于这样一个事实：1)小物体的外观非常模糊和多变，2)它们比正常大小的物体更容易因为镜头的晃动而丢失。本文提出了一种新的适用于小目标跟踪的聚合签名，特别是针对突发大漂移的挑战。我们在这项工作中有三方面的贡献。首先，在技术上，我们提出了一种新的描述符，称为聚集签名，它基于显著性，能够表示小目标的高度不同的特征。其次，从理论上证明了所提出的签名能够以较高的概率更准确地匹配前景目标。第三，在实验上，聚合签名在多个数据集上取得了很高的性能，远远超过了最先进的方法。此外，我们还提供了两个新收集的基准数据集，即Small 90和Small 112，用于视觉上的小目标跟踪。数据集将在https://github.com/bczhangbczhang/.中提供

1.引言

虽然在过去的十年中已经开发了几种跟踪方法[1]、[2]、[3]、[4]、[5]、[6]、[7]，并且已经被证明在许多应用中是成功的，例如机器人或视频监控，但是跟踪视频中的小目标仍然是一个具有挑战性的问题，特别是当要考虑复杂的场景和实时约束时。在本文中，小目标是指图像中目标的大小不到整个图像的1%。小目标跟踪面临的挑战主要有两个方面：一是小目标的视觉特征非常反复无常，使得特征表示变得困难；第二，和正常大小的目标相比，在跟踪过程中，由于镜头的抖动，经常会出现小目标突然大漂移的情况。所谓突然大漂移，就是图像坐标系中相邻两帧之间的目标距离比目标大小大两倍。

长期以来，研究人员只报道了使用合理大小目标的常见基准的跟踪结果，而对小目标跟踪问题关注较少。现有的与小目标跟踪相关的算法很少，而这些算法是为增强这类目标的视觉特征而设计的，希望在利用鲁棒特征的情况下，跟踪的目标不会再丢失。例如，[8]、[9]中的方法综合了空域和频域特征，以便更精确地定位目标。或者，[10]中的方法倾向于通过加强小目标的特征表示(例如，目标属性)来增强跟踪器的稳健性。最近，Rozumnyi 等人[11]提出了解决目标快速运动和运动模糊的方法，但由于分辨率低、背景杂波复杂等原因，性能不尽如人意。考虑到目前已经开发的深度学习方法[12][13]，我们认为高级特征似乎对小对象并不有效。此外，考虑到小目标很容易与真实场景中的噪声和杂波混淆，即使利用了鲁棒的视觉特征，我们也怀疑能否保证对小目标的连续跟踪。换句话说，让小物体在跟踪过程中丢失，同时研究一种更好的解决方案来重新检测它们，可能会更现实。

这里的直觉是关于“当小目标由于杂乱的背景而丢失时，人类如何识别它？”最有可能的是，人类首先查看场景中弹出的显著对象/区域，然后进一步验证其中一个显著对象是否是感兴趣的目标[14]。少数作品模仿人的行为，在目标跟踪中涉及显著信息。例如，[15]中的方法集成了上下文表示的显著性，而[16]、[17]、[18]中的方法以各种方式将显著性合并到外观模型中，以提高跟踪器的鲁棒性。然而，由于它们大多集中在图像域中的目标外观上，性能并不令人满意，因为对于小目标而言，外观隐含地很弱。因此，它们可能只可靠地应用于跟踪正常大小的目标。在本文中，我们提出了一种新的显著性在线学习框架，称为聚合签名，并重点研究了小目标跟踪。就我们所知，目前还没有一种基于显著性的方法利用所有上下文信息(包括强度、饱和度、显著性和运动信息)来跟踪小目标。

与手工制作的图像签名不同，手工制作的图像签名是在图像空间匹配稀疏前景目标的简单而强大的工具，我们的聚合签名的明显优势在于利用一种学习机制来构建自适应目标签名。结果是，即使目标很小，它也能快速检测出显著目标，从而进一步提高跟踪器的(再)定位性能。我们通过模仿人类的注意机制，开辟了跟踪小目标的新方向。特别地，理论证据证明了该方法更有效，并且从聚合签名得到的前景显著图在迭代过程中变得与目标外观更一致，如图1所示。此外，聚合签名具有很强的通用性，可以集成到其他跟踪器中。综上所述，本文的贡献包括：

图1：聚合签名结果在不同的迭代中显示，反映了跟踪的目标在学习过程中变得更加突出。我们的聚合签名首次尝试将跟踪到的目标信息融入到四元数离散余弦变换(QDCT)图像签名中，并从理论上证明了它的聚合能力。

(I)从理论上证明了所提出的聚合签名对于稀疏前景检测更有效，使得跟踪目标比背景更显著。

(II)聚合签名基于学习机制提高了为目标积累信息的能力，而传统的图像签名是手工制作的，更容易无法适应目标。

(III)收集新的具有挑战性的数据集--Small 90和Small 112--用于小目标跟踪评估。这些数据集是公开的，可用于进一步的研究开发。

2.聚合签名

图像签名是一种简单但功能强大的工具，可以在空间上匹配图像的稀疏前景[19]。通过使用DCT的符号函数，得到的手工生成的描述符可以有效地近似检测图像的显著区域。QDCT[20]通过引入四元数分量来区分四个分量的相对重要性，而不是将彩色图像分成三个通道图像并分别计算图像签名。通常，基于DCT和QDCT的图像签名都是手工制作的方法，不涉及学习过程。另一方面，所提出的聚合签名通过学习多线索信息，特别是目标先验信息，提高了QDCT签名的区分能力。

A.聚合签名的定义

我们首先考虑一个显示以下结构的图像x：

其中f表示前景，b表示背景。有关本节其余部分使用的定义，请参阅表I。形式上，聚合签名(AS)定义为：

其中sign(·)是入口符号运算符，i表示第i次迭代，Q表示正在使用的4个通道。然后，可以将重建图像定义为：

并且

其中 $S^{i}=\bar{x}_{Q}^{i-1} \circ \bar{\tilde{x}}_{Q}^{i-1}$ ， $\bar{x}_{Q}^{i}$ 表示在第i次迭代中以 $\bar{\tilde{x}}_{Q}^{i-1}$ 作为其共轭形式的重构结果， $\circ$ 代表元素产品。I1、I2、I3表示三个不同的通道，例如RGB、图像强度和图像饱和度(或跟踪中的运动)的任意一个通道。π是与被跟踪目标相关的二维先验，这将在第四节中详细说明。

表1：本文使用的符号和术语。

B.前景聚合签名属性

在这一部分中，我们将提供证据，证明对于符合一定数学结构的图像，背景可以通过聚合签名来抑制。

提议：在学习过程中，由聚合签名重建的图像与前景对象的匹配更准确，概率如下：

其中P表示概率， $\epsilon$ 是一个小正值，N表示图像总像素数， $\left \| \cdot \right \|$ 表示L2范数， $< \cdot ,\cdot >$ 表示内积。 $E(\cdot )$ 表示期望值，它揭示了通过聚合签名获得的前景和对象显著信息之间的相似性。

证明：我们知道QDCT和DCT之间的转换是

为了便于解释，我们只关注一个通道，也就是 $S^{i}=\bar{x}^{i-1}$ ，结果可以很容易地推广到四元数的情况，然后我们有

其中 $\hat{x}=DCT(x)$ 并且P表示相应支撑集的点。我们注意到，该证明适用于等式6中的通道j，k，h，所以我们以j通道为例。那么我们就有

由于离散余弦变换得到的结果是相互独立的，我们假设

其中 $\varepsilon$ 非常小，因为DCT输出等于某个值的概率非常小。那么我们有以下语句：

考虑到 $\varepsilon$ 是非常小的，这意味着我们很有可能有 $\left \|\bar{x} ^{i} \right \|=\left \|\bar{x} ^{i+1} \right \|$ 。

同样，我们也有

由于 $\pi \geq 0$ ，如果 $\left | DCT(I_{3}(p)-I_{2}(p)) \right |> \pi (p)$ ，我们得到

结合(11)和(12)，我们得到

基于侯[19]提出的图像签名，我们得到了

其中 $\Omega _{x}$ 表示 $\hat{x}$ 的支持集。在给定界限 $\left | \Omega _{f} \right |\geq \frac{2}{3}N$ 的情况下，我们得到

然后它就变成了

对于空间稀疏的前景，我们有以下声明：

和等式(10)一起。我们得到

这证明了这个命题。

标记：这里，如公式(9)所示， $\varepsilon$ 非常小，例如 $\varepsilon =0.0001$ ，当N=1024时，上述概率为81%。换言之，在高概率学习聚合签名的过程中，背景受到了更多的抑制。基于MSRA-B数据集[21]，我们还对公式(9)中的 $\varepsilon$ 进行了统计分析，结果表明 $\varepsilon$ 非常小，小于 $\varepsilon =1.5e-9$ 。

3.聚合签名跟踪器

我们利用聚合签名来增强小目标跟踪的再检测过程，这就是聚合签名跟踪器(AST)。更具体地说，当通过阈值方法发现目标漂移时，将触发以跟踪的目标为先验的显著性检测，这使得在线聚合签名能够抑制背景数据。结合不同通道中的上下文信息，对目标进行重新检测，对跟踪目标进行重新定位。整个追踪过程是如图2(a)和算法1所示，我们在下面详细说明每个关键组件。

图2：聚合签名跟踪器的方案，包括基本跟踪器和重新检测阶段，特别是对于小目标。聚集特征计算部分说明了重新检测过程中显著图的计算。一旦检测到漂移，我们选择前一个目标位置中心周围的搜索区域，通过聚合签名计算显著图。蓝色框是搜索区域。在学习过程中，使用目标先验(π)和蓝框中的上下文信息来学习显著图，该显著图有助于找到新的初始位置，在该位置将再次执行基跟踪器以进行重新检测。

算法1 聚合签名跟踪器

漂移检测：正如输出约束转移跟踪法(OCT)[22]所示，简单的分布对于实现高效率是必要且重要的。OCT建立在对目标图像的响应服从高斯分布的合理假设之上，因此我们基于阈值方法触发重新检测过程，如下所示：

其中，µ表示使用所有先前帧的平均响应，r表示当前帧的最大响应，Tg是阈值。如果当前帧的响应远离平均响应，则认为目标丢失。一旦目标被遮挡或看不见了，这个机制就会帮助我们在接下来的帧中持续搜索。

显著图计算：聚合签名用于获得显著图，并进一步粗略地重新定位目标。通过R次迭代，利用高斯核[19]逐步平滑聚合签名，得到显著图。显著区域被认为是目标的粗略候选位置，在其上仍然基于所选择的基础跟踪器执行重新检测过程。应该提到的是，作为显著性检测的先例，涉及目标对象在传统方法中不会发生。以下是两个关键部分的详细说明：

1)通道设计：将t帧采集的输入图像表示为 $F^{t}$ ，其中 $R^{t}$ 、 $G^{t}$ 、 $B^{t}$ 分别为 $F^{t}$ 的红、绿、蓝通道。然后，我们获得在我们的聚合签名中使用的三个信道，分别表示为：强度 $I_{1}^{t}=(R^{t}+G^{t}+B^{t})/3$ ，饱和度 $I_{2}^{t}=max(R^{t},G^{t},B^{t})$ 和运动 $I_{3}^{t}=\left | I_{1}^{t}-I_{1}^{t-\tau } \right |/3$ ，其中 $\tau$ 是常数。我们部署图像签名[19]来计算作为第一通道 $\pi \circ S ^{i}$ 的初始显著图。

2)目标优先：如图2(b)所示，我们选择与最后一帧中的目标在大小上相似的M个显著区域。接下来，我们为每个候选者分配一个权重，该权重指示与目标先验信息的相似性，其简单地由欧几里德距离来测量，如下所示：

其中 $\pi _{n}^{t}$ 表示候选显著图在第t帧的第n个区域的权重，ξ为常数。 $d_{n}^{t}=\sum_{i=1}^{255}\sqrt{(H^{t}(i)-y_{n}^{t}(i))^{2}}$ 其中 $y_{n}^{t}(i)$ 表示候选显著图的直方图，而 $H^{t}$ 表示由下面等式计算的第t帧的目标直方图

其中σ在本文中为0.5.。我们注意到，对于所选显著区域之外的区域，权重被设置为1。

4.实验

在本节中，我们将基于Small 90数据集和视觉显著性基准MSRA-B[21]来评估聚合签名。根据目标跟踪基准[24]，我们在Small 90、Small 112、UAV123_10fps[23]和UAV20L[23]上进一步测试了基于聚合签名的跟踪器的性能。测试平台是配备8G RAM的英特尔i7 2.7 GZ(4核)CPU和配备NVIDIA GeForce GTX 1070的GPU。

A.数据集

很少有数据集可用于小目标跟踪任务。我们建立了一个全面的数据库，称为Small 90 Benchmark，由90个带注释的小对象序列组成，其中包含了几个额外的挑战，如目标漂移和低分辨率。我们在Small90中添加了22个更具挑战性的序列，并获得了另一个新的数据集称为small112。每个序列被分类为11个属性-照明变化(IV)、比例变化(SV)，遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、视野外(OV)、背景杂波(BC)和低分辨率(LR)，以便更好地分析跟踪方法。我们的数据集中的属性分布如图3所示，它显示某些属性比其他属性更频繁地出现，例如LR。我们注意到，一个序列通常用多个属性进行注释。我们的数据集中的第一个帧的示例如图4所示。

图4 从Small90选择的序列的第一帧。红色边界框表示地面实况。

B.图像上的聚合签名

我们首先基于常用的度量，包括基于位置的度量、归一化扫描路径显著性(NSS)[25]、平均绝对误差(MAE)[26]和基于分布的度量相似性(SIM)[27]，评估聚合签名如何提高显著性检测的性能。计算了比较DCT图像签名(IS)和QDCT图像签名(QIS)，以广泛验证聚合签名(AS)方法的有效性，特别是在MSRA-B[21]和Small90数据库上。MSRA-B是一个用于定量评价视觉注意算法的大型图像库，共有5000幅图像。从表II中的结果我们观察到，我们的方法在MAE、NSS、SIM度量方面总体上取得了比IS和QIS更好的量化性能，因此可以更好地估计预测的显著图与地面事实之间的视觉距离。图5给出了不同方法的显著图，以及Small90图像上的基本事实，这表明与其他方法相比，聚合签名中的背景受到了更多的抑制。在运行速度方面，聚合签名模块在实验中达到了32帧/秒(FPS)。

图5：不同签名方法的代表性结果。对于每一组，从左到右分别是原始图像、地面真实、IS、QIS和AS。与其他方法相比，AS具有最好的背景抑制性能。

C.跟踪上的聚合签名

我们经验地设置迭代次数R=4，显著块M=6。对于其他参数，我们按照前面的工作[22]，在所有实验中设置ξ=1，τ=3，Tg=1.6，以进行公平比较。

然后，基于Small90，通过与结合KCF的DCT图像签名、QDCT图像签名进行比较，测试了基于跟踪的聚合签名(AST)的性能。图6中的结果表明，聚合签名在小目标跟踪中的性能明显优于其他签名。此外，我们使用一次评估(OPE)[24]来评估我们在整个实验部分的结果。此外，我们将KCF_AST与其他基于显著性的跟踪器，包括显著性先验上下文模型(SPC)[15]和结构主义认知跟踪器(SCT)[28]在同一图中进行了比较。KCF AST(76.6%)比SPC(54.9%)高出约22%，比SCT(67.7%)高出9%；KCF AST(46.6%)比SPC(30.9%)高16%，比SCT(42.1%)高5%。

图6：Small90上AST性能的精度和成功率曲线图，其中SPC和SCT是另外两个基于显著性的跟踪器，而KCF_QDCT和KCF_DCT用于比较跟踪中的聚合签名性能。

我们还将我们的跟踪器与OCT进行了比较，OCT也使用了类似的故障检测方案来改进KCF。可以注意到，在精度和成功率方面，KCF_AST的性能分别比OCT高13.2%和7.8%。

Small 90基准：在图7中，我们进一步展示了30个最先进的跟踪器的精度和成功曲线图，这些跟踪器包括SiamRPN[29][30]、LDES[31]、SAT[32]、TLD[3]、LCT[33]、OCT[22]、CSK[34]、CT[35]、STC[36]、KCF[37]、ECO[38]、MDNet[39]、LCCF[40]、SRDCF[41]。而几种基线算法，例如LDES，DaSiamRPN，ECO在跟踪小目标方面显示出很大的潜力，我们的AST仍然帮助实现了84.9%(LDES_AST)、83.1%(DaSiamRPN_AST)和83.2%(ECO_AST)的准确率，分别比相应的基本跟踪器提高了1.6%、0.9%和1.7%。同时，上述三种基于AST的跟踪器的成功率分别为68.6%、69.7%、64.3%，分别比基准跟踪器高1.7%、0.4%、0.9%。与MDNet相比，我们的MDNet_AST分别提高了7.1%和4.0%，准确率达到86.6%，成功率达到65.9%。这再次证实了我们的聚合签名可以持续提高基本跟踪器的性能。同样，与基本跟踪器LCCF相比，LCCF_AST也显示出显著的性能提升。此外，与最先进的再检测跟踪器相比，我们的LCCF_AST(54.8%)在Small90上的成功率分别比其基本跟踪器LCCF(46.4%)、TLD(52.7%)、LCT(46.7%)和OCT(54.2%)高出2.1%、8.3%和0.7%，显著高于其基本跟踪器LCCF(46.4%)、TLD(52.7%)、LCT(46.7%)和OCT(54.2%)。优越的跟踪性能证实了我们的方法比TLD、LCT和OCT等最先进的再检测跟踪器更有效。

图7：Small 90上的精确度和成功率曲线图。

我们在图8中举例说明了KCF_AST的一些示例，以说明我们的聚合签名如何帮助提高跟踪性能。在从Small90中选择的序列中，跟踪对象在跟踪过程中遭受严重的图像质量恶化。具体地说：1)场景背景呈现杂波，而许多物体在外观上与目标相似；2)严重漂移或长时间离开视线会导致目标在远距离直接漂移。此外，我们采用MDNet、LCCF(Deep Feature)和KCF作为基本跟踪器，对视觉跟踪实验进行了比较。结果如图11所示；我们这里的主要目标是展示我们的方法如何帮助极大地减少跟踪失败。

图8：四个具有挑战性的序列(快车、尾板、卡车和黑车)上的代表性跟踪结果。对于每个子图，当前帧、聚合签名(AS)获得的显著图和相应的跟踪结果分别显示在第一列、中间列和右列。可以看出，我们的AST跟踪器能够很好地解决由于聚合签名的使用而造成的漂移、变形、背景杂乱和视线之外的挑战。

图11：UAV20L上的精度和成功率曲线图。

从图8和图11的结果可以看出，聚合签名可以有效地提高基本跟踪器的性能，特别是对于小目标跟踪，并且通过结合我们的图像签名，显著检测和跟踪都得到了增强。作为最后的考虑，我们承认所提出的方法具有在漂移时对目标进行重新定位的能力，并且在小的目标序列上表现得非常好。

small112基准：我们进一步收集了具有112个完全注释序列的新基准数据集，以促进性能评估。在small90的基础上，添加的22个序列是更困难的序列。如图9所示，KCF_AST，LCCF_AST，ECO_AST将KCF，LCCF，ECO的性能从58.0%，64.7%，77.9%提高到71.0%，77.1%，81.9%的精度率和41.6%，成功率分别为44.5%，62.9%至49.2%，50.8%，66.0%，这表明AST在复杂的小目标跟踪序列上显着改善了这些基本跟踪器。虽然基线跟踪器（如SiamRPN，LDE）表现非常好，但AST的精确度仍提高了0.1%和0.4%，成功率提高了0.5%和0.5%，这验证了AST的有效性。从实验结果可以看出，所有赋予聚合签名模块的跟踪器的性能始终优于基本跟踪器，这进一步验证了所提出方法的有效性。此外，结果显示更好的基本跟踪器获得更少的性能改进。原因可能是如果漂移不明显，聚合签名的用处不大，这是使用更好的跟踪器的情况。

图9：Small 112上的精确度和成功率曲线图。

UAV123_10fps基准：我们在UAV123_10fps[23]上测试AST，如图10所示，其中包含123个序列，构成许多挑战。与基本跟踪器MDNet相比，聚合签名(MDNet AST)使MDNet的准确率从50.2%提高到54.2%，成功率从42.2%提高到47.5%，进一步验证了该方法的有效性。而KCF_AST在精度上比KCF高6%左右，在成功率上比KCF高8%左右。至于LDES、DaSiamRPN、ECO这些最新的跟踪器，它们对应的AST仍然比这些基本跟踪器取得了更好的效果。

图10：UAV123_10fps的精度和成功率曲线图。

UAV20L基准：我们还在著名的基准UAV20L[23]上测试AST，如图11所示，其中一些被跟踪的目标非常小。选择最先进的SRDCF作为基本跟踪器，从而得到我们的SRDCF_AST。显然，SRDCF_AST在最先进的方面获得了更好的性能。与基本跟踪器SRDCF相比，聚合签名(SRDCF AST)使SRDCF的准确率从50.7%提高到53.1%，进一步验证了该方法的有效性。从精度上看，LCCF AST比LCCF高约7%，而KCF AST比KCF高约3%。此外，LCCF_AST和KCF_AST虽然在成功率方面没有表现出突出的表现，但仍然分别取得了比它们的基本跟踪器更好的结果。此外，对于更先进的跟踪器LDES和DaSiamRPN，我们还展示了LDES_AST和DaSiamRPN_AST对其基本跟踪器的明显改进。

图11：UAV20L上的精度和成功率曲线图。

基准的定量属性评估：Small90的基准工具箱生成的全套曲线图也显示在表III中。从结果中，我们可以得出结论，AST跟踪器在大多数情况下对于小尺寸对象的性能要好得多，特别是对于运动模糊和快速运动，我们可以看到所有AST跟踪器都有显著的改进，因为对于前面提到的变化，基于显著性的AST跟踪器可能比基本跟踪器更健壮。综上所述，AST在大多数情况下可以持续改进基本跟踪器的结果，并且ASTtracker实现了新的最先进的结果。

表III：Small90中11个属性的精确度和成功率。粗体字体突出最佳性能

速度分析：在Small90上的跟踪速度方面，KCF_AST的处理速率为120.88帧/秒(FPS)，而基于深度特征的LCCF_AST的处理速率为16.52FPS，这表明我们提出的跟踪器不仅达到了最先进的结果，而且具有很好的实时性。虽然所提出的跟踪框架的帧率有所下降，但与原有的基本跟踪器相比，跟踪性能在Small90上有了显著提高，例如，在成功率方面比LCCF提高了8.2%。

5.结论

为了提高小目标跟踪性能，提出了一种新的聚合签名。聚集签名以目标为先验，自适应地定位显著对象，在漂移时部署显著对象以重新检测跟踪对象。它是通用的，可以与其他跟踪器一起使用。我们使用KCF、SRDCF、LCCF、ECO、SAT、LDES、DaSiamRPN和MDNet对我们的跟踪框架进行了评估。为了验证生成的聚合特征跟踪器，我们还收集了名为Small90和Small112的新视频数据集，其中包含用于小目标跟踪的完全注释的视频序列。实验结果清楚地表明，对于严重漂移、变形和不可见等具有挑战性的情况，我们的方法是如何提高性能的。此外，我们的方法将在未来扩展到不同的应用，如大规模检索[43][44]和分类[45]。