Pyramid Correlation based Deep Hough Votingfor Visual Object Tracking（论文翻译）

最新推荐文章于 2023-03-26 16:09:38 发布

MJ5513

最新推荐文章于 2023-03-26 16:09:38 发布

阅读量2.3k

点赞数

分类专栏：目标跟踪论文翻译文章标签：目标跟踪计算机视觉深度学习

本文链接：https://blog.csdn.net/MJ17709005513/article/details/121596106

版权

目标跟踪论文翻译专栏收录该内容

22 篇文章 15 订阅

订阅专栏

摘要

现有的基于Siamese的跟踪器大多将跟踪问题视为分类和回归的并行任务。然而，一些研究表明，在网络训练过程中，兄弟头结构可能导致次优解。通过实验我们发现，在没有回归的情况下，只要精心设计网络以适应训练目标，性能同样有希望。提出了一种新的基于投票的纯分类跟踪算法--基于金字塔相关的深度霍夫投票算法(PCDHV)，用于联合定位目标的左上角和右下角。具体地说，我们创新性地构建了金字塔相关模块，为嵌入的特征提供细粒度的局部结构和全局空间上下文；精心设计的Deep Hough Voting模块进一步接管，整合像素的远程相关性来感知角点；此外，通过提高特征地图的空间分辨率并利用通道-空间关系，可以简单而有效地缓解普遍存在的离散化差距。该算法具有通用性、鲁棒性和简单性。我们通过一系列的消融实验验证了该模块的有效性。
在没有花哨的情况下，我们的跟踪器在三个具有挑战性的基准(TrackingNet、GOT-10k和LaSOT)上实现了比SOTA算法更好或相当的性能，同时以80FPS的实时速度运行。代码和模型将会公布。

1.引言

视觉目标跟踪是计算机视觉中的一项基本任务，其目的是在给定目标在初始帧中的精确状态的情况下，预测目标在后续帧中的位置。它已被广泛应用于监控、机器人、自动驾驶等领域。尽管近几十年来取得了显著的进展，但诸如大遮挡、严重变形和相似物体干扰等挑战仍然有待克服。

基于Siamese的算法为视觉跟踪领域做出了重大贡献。该算法通过学习目标模板和搜索区域之间的一般相似性映射，将跟踪任务看作一个目标匹配问题。最近几年见证了更大的许多基于Siamese的算法的发展趋势。把跟踪问题作为平行分类和回归相结合对待。具体地说，基于锚点的算法SiamRPN ，SiamRPN，DaSiam引入区域提案提取子网(RPN)任等。并使用分类分支进行建议选择，进一步回归锚和相应的Ground Truth之间的四个偏移量(如图1(a)所示)。而无锚点跟踪算法SiamFC，SiamCAR 在中心度分支的帮助下将对象边界框内的所有位置分类为正，并回归中心点与对象边界之间的四个距离(如图1(b)所示)。虽然这些方法获得了均衡的精度和速度，但已有研究表明，由于两个分支的本质不对齐，跟踪性能容易陷入次优，而且分类分支对跟踪性能的贡献要大得多。因此，在我们的工作中，我们设计了一种基于投票的仅分类跟踪算法(简称PCDHV)，只使用一个分类分支来生成角点投票地图，联合定位目标的左上角和右下角(如图1(c)所示)。整个结构由三个模块组成：基于Siamese的特征提取模块、金字塔相关模块和Deep Hough投票模块。

图1：(a)SiamRPN，(b)SiamFC和(c)我们的方法的结构比较。红色、橙色和绿色的符号分别表示分类分支、回归分支和最终预测目标框。与以往的算法不同的是，该算法摒弃了兄弟头部模型，通过分类分支来实现目标的精确定位，并通过投票机制将角点与背景分离。

具体地说，首先采用传统的Siamese结构进行目标模板和搜索区域的特征提取，然后通过互相关嵌入输出来学习相似度。现有的大多数基于Siamese的算法都采用了naive-correlation、和深度相关的算法，将整个模板特征作为卷积核。然而，在跟踪过程中，目标可能会遭受较大的外观变化，从而将固定的核特征与变化较大的搜索特征作为一个整体进行匹配，可能会大大降低相关图的质量。考虑到角点定位目标要求相关性特征具有丰富的细粒度局部结构，我们认为像素级相关更合适。创新性地提出了金字塔相关方法，通过空间特征选择、金字塔特征汇集和分组像素级相关等一系列步骤来提取对角点有利的融合特征。这些块同时为相关性特征配备了全局空间上下文，使跟踪器对变形具有健壮性。

此外，角点定位还需要像素的长程相关性。为此，我们精心设计了一个Deep Hough Voting模块来进一步接管，它包括投票生成、投票细化和投票聚合三个模块，精确地生成表示左上角和右下角位置概率的特征地图。投票生成模块首先应用多个卷积层将特征调整成合适的形状，同时扩展接受范围。然后，投票求精块，即改进的位置感知非局部块，更紧密地挖掘密集的上下文信息和配对两个角点特征。栅格通道与像素洗牌机制，分别用于获取位置信息和扩展特征大小，进一步利用通道-空间关系。最后，利用HoughNet Samet等人提出的投票模型，负责投票聚合块以捕获长期依赖关系。这三个块协同工作以生成高质量的角点热图，每个图的峰值位置代表预测角点的位置。

不可避免的是，网络步幅过大造成的离散化差距对跟踪精度有很大的负面影响。虽然许多优秀的算法采用引入回归分支来弥补这一差距，但我们选择通过在结构中插入上采样操作来进行补偿。因此，我们的PCDHV可以精确地定位包围盒，从下面的实验结果可以直观地看出这一点。

我们在三个具有挑战性的大规模基准上对我们的PCDHV进行了评估，其中包括GOT10k 、TrackingNet 和LaSOT。没有花哨，我们的跟踪器可以获得比最先进的跟踪器更好的性能或相当于最先进的跟踪器的性能。该网络具有通用性、健壮性和简单性，不需要繁琐的参数调整和启发式知识。进行消融研究以验证每个部件的有效性。我们的主要贡献概括如下。

我们将目标跟踪问题描述为一个纯分类问题，目的是将目标的左上角和右下角与搜索区域区分开来。该算法具有通用性、健壮性和简单性，在几个主流基准上取得了比SOTA算法更好或相当的结果。跟踪速度也令人印象深刻，每秒80FPS。
我们设计了金字塔相关，使关联特征具有细粒度的局部结构和全局空间上下文，为后续处理提供了丰富的信息。
我们对相关特征进行了深霍夫投票，进一步捕捉了通道-空间关系和长距离相关性，使得每个特征图的峰值位置能够准确地表示目标位置。

2.相关工作

基于Siamese的算法。最近，基于Siamese的跟踪器由于在性能和效率之间取得了令人满意的平衡，引起了视觉跟踪界的极大关注。SiamFC 首先通过互相关操作学习目标模板和搜索区域之间的相似度图。SiamRPN ，SiamRPN++，DaSiam引入区域提案提取子网(RPN)到Siamese结构，使用分类分支进行前景-背景估计，使用回归分支进行锚调整。虽然这些基于锚点的算法在许多具有挑战性的基准测试中取得了最先进的结果，但是预定义的锚点设置引入了许多超参数和计算复杂性。为了获得更好的性能，进一步提出了无锚点跟踪算法。SiamFC++ ，SiamCAR首先通过分类预测某点成为目标中心的概率，然后回归该中心点到目标边界的距离。上述算法都是通过互相关来嵌入目标特征和搜索特征的，而SiamGAT选择通过图形注意机制在Siamese两个分支特征之间建立部件对部件的对应关系。

未对齐的孪生头。很明显，现有的大多数基于Siamese的跟踪算法都包含回归分支，但我们持有不同的观点。实验表明，显著区域的特征可能具有丰富的分类信息，而边界附近的特征更适合于包围盒回归。当从Siamese网络提取的共享特征同时应用于分类和定位分支时，由于两个分支的本质不对齐，性能容易陷入次优。为了解决这个问题，Song等人提出了一种简单的TSD算子，通过任务感知的提案估计和检测头来处理纠缠的任务冲突。严等人通过将分类分支与回归分支解耦，以两阶段方法训练网络。我们寻求另一种方法来探索更高性能的分类器，使用纯粹的分类分支将角点从所有像素中分离出来。由于网络的复杂设计，其性能也同样令人向往。

3.深度霍夫投票在视觉跟踪中的应用

3.1 整体框架

图2显示了我们的算法的整体结构，该结构仅由一个分类分支组成。采用参数共享骨干网的Siamese结构进行特征提取，生成模板特征和搜索特征。使用带有非共享参数的额外CNN-Upsample层进行特征调整。然后，应用金字塔相关模块，结合空间特征选择、金字塔特征汇集和组像素级相关，得到角点有利的相关特征。最后，应用Deep Hough Voting模块进行精确的角点估计，该模块包括投票生成、投票细化和投票聚合三个模块。输出分别对应于左上角和右下角的两个热图以供评估。在没有额外技巧的情况下，假设每个地图的峰值位置就是预测角点的位置。

图2：我们的PCDHV跟踪框架的架构包括三个基本组件：特征提取、金字塔相关和深度霍夫投票。两个输出热图的峰值位置分别表示预测的左上角和右下角的位置。

3.2 金字塔相关

图3描述了我们的金字塔关联的流程图，它由空间特征选择、金字塔特征池和组像素级关联三个步骤组成。为了便于表示，我们将 $F_{T}\in R^{h\times w\times C}$ 表示为模板特征映射，将 $F_{S}\in R^{H\times W\times C}$ 表示为搜索特征。

图3：金字塔相关流程图。模板特征首先通过空间特征选择、金字塔特征池处理，然后以组像素级相关的方式与搜索特征相关。

空间特征选择。

空间特征池化。

组像素水平相关。

3.3 深度Hough Voting

左上角和右下角可能远离目标物体，因此很难以局部方式直接回归。我们提出通过Hough投票结合近程和远程证据来精确定位目标角点。具体地说，目标角落在给定点的出现概率取决于从周围接收到的选票的总和。与HoughNet Samet等人设计的带有R个区域的投票场一样，近距离和远距离的选票都可以同时收集。图2显示了我们的Deep Hough投票模块的示意图，该模块由三个模块组成，这三个模块逐步实现投票生成、投票细化和投票聚合，如下所示。

Vote生成。

Vote修正。

Vote聚合。

3.4 空间分辨率增强

我们使用GoogLeNet在ImageNet上进行了预训练作为主干，其步幅等于8。特征映射到原始序列时步长过大会导致量化误差，严重影响后续的角点定位精度。我们没有引入回归分支来弥补这一离散化差距，而是通过在后续模块中插入两个上采样操作来提高特征分辨率，而不是引入回归分支来提高特征分辨率，其中一个操作在骨干特征提取之后立即添加，另一个操作则融合到如上所述的Deep Hough投票模块中。最后，总步幅减少到2步，在精确度和高效训练之间取得了平衡。

3.5 优化

Groundtruth图 $Y\in R^{2H_{S}\times 2W_{S}\times 2}$ 是在CornerNet的指导下构建的。我们首先通过 $\left \lfloor \frac{c(x,y)-\Delta _{o})}{s} \right \rfloor$ 将角点坐标c(x，y)从搜索地图映射到特征地图，其中s和∆o分别表示整个无填充网络的总步长和总偏移量， $\left \lfloor . \right \rfloor$ 表示地板函数。为了有效地训练，我们将地面真实地图的正区域设置为放置在角点中心的R半径的二维高斯核，其中R通过两个角和目标groundtruth之间的最低IOU(我们在这里设置d=0.5)决定。而该区域的其余部分则被认为是阴性的。与许多基于关键点的算法一样，我们采用了焦损LIN等人的算法。(2017)作为培养目标。

4.实验

在TrackingNet、GET-10k和LaSOT三个大规模数据集上，我们将我们的PCDHV与几个最先进的跟踪器进行了比较，以广泛评估所提出的方法。

4.1 实施细节

训练。

测试。

4.2 TrackingNet、GOT-10k和LaSOT数据集的评价

在TrackingNet上的结果。

在GOT-10k上的结果。

在LaSOT上的结果。

分析和讨论。值得注意的是，我们的算法在较高IOU阈值下的性能是突出的，这可以从GOT-10k(表2)中的SR75和LaSOT(图6)中的成功曲线的后半部分的度量中看出。我们收集了GOT-10k Val集合上SR的更多结果，见图7。图中显示，我们的PCDHV在大的IOU阈值下获得了明显更高的准确率，这清楚地证明了它在精确定位目标方面的优越性。我们认为，这一令人印象深刻的结果主要是由于其健壮和信息量大的特点以及其更高的分辨率所带来的，这可以从消融实验中得到证明。我们还在LaSOT测试集上对我们的PCDHV和几个竞争对手进行了属性分析(每个属性名称后面都会报告PCDHV的AUC)，如图8所示。我们的PCDHV在大多数属性上都比其他现有技术表现得更好。而在快速运动、完全遮挡和背景聚类的情况下，所有跟踪器的表现都相对较差。我们假设它们是离线跟踪算法在没有全局搜索或重新检测机制的情况下面临的共同挑战。

4.3 消融研究

我们对GOT-10k基准测试程序进行了基于组件的分析，只能使用在线服务器进行评估，增强了测试结果的公正性和可信度。实验通过逐步将每个分量添加到基线模型中来独立验证我们的金字塔相关和Deep Hough投票的有效性。

空间相关。基线模型(表3中的第1行)是通过在保留其他结构的同时，将金字塔相关退化为深度相关而获得的。如表3所示，通过像素相关、金字塔合并、注意机制和分组操作的加法运算，跟踪器的AO分别提高了1.3%、1.2%、0.6%和1.4%。因此，通过增加要素的细粒度局部细节和全局空间上下文，证明每个块对最终结果都有贡献。

Deep Hough Voting。由于投票聚集块本质上对输入特征的信道有2R的量化要求，我们将投票生成块降级为仅负责信道缩减的粗略1×1卷积层，并将其与投票聚集块结合作为基线模型。从表4中的第2行可以看出，尽管未填充的3×3卷积层带来了特征大小的缩小，但是我们的投票生成块仍然可以与投票聚合模块很好地协同工作，并且在AO上实现了0.7%的性能提升，这表明感知领域增量的增益大于特征大小增量的增益。一个显著的改进是通过将位置感知非局部块合并到投票细化块中来实现的，如第4行所示，这可以由网格融合（AO上3.2%的增益，如3行所示）和上采样（AO上2.6%的增益，将第3与第4行进行比较）的两种操作来贡献。

4.4 定性结果

图9定性地显示了我们与最先进的跟踪器Ocean，和SiamFC++在GOT-10k Val集合中的三个具有挑战性的序列上的跟踪结果。当目标经历大变形(第一排)、遮挡(第二排)和平面外(第三排)变化时，离线跟踪器要准确评估目标的确切位置是具有挑战性的。我们的跟踪器在保持非常准确的目标位置估计和令人印象深刻的跟踪速度的同时，比流行的先进的无锚点算法执行得更好。

图9：GOT-10k Val集合中三个挑战序列的定性结果与Ocean和SiamFC++的比较。

5.结论

本文介绍了一种新的基于投票的纯分类跟踪算法PCDHV，该算法通过精确估计目标的左上角和右下角来定位目标。我们创新性地提出了金字塔相关，使相关特征具有细粒度的局部结构和全局空间背景。然后，Deep Hough Voting接管并进一步捕获通道-空间关系和长测距依赖关系，实现输出特征的最大值准确对应于目标位置。特征图和原始跟踪序列之间的离散化差距通过两个精心设计的采样机制得到缓解。大量实验表明，PCDHV算法在几个主流数据集上取得了比SOTA算法更好或相当的结果。跟踪速度也令人印象深刻，每秒80FPS。我们将进一步探索更深层次的特征提取网络对算法的适应性，以期获得更好的性能提升。