SiamRPN论文笔记

最新推荐文章于 2023-04-05 10:37:28 发布

DL小白123

最新推荐文章于 2023-04-05 10:37:28 发布

阅读量1.6k

点赞数 1

文章标签：论文阅读深度学习人工智能

本文链接：https://blog.csdn.net/qq_41434501/article/details/127109343

版权

什么是RPN

RPN网络

Abstract

近年来，视觉对象跟踪一直是一个基本主题，许多基于深度学习的跟踪器在多个基准测试中取得了最先进的性能。然而，这些跟踪器中的大多数很难以实时速度获得最佳性能。在本文中，我们提出了 Siamese region proposal network (Siamese-RPN)，它是端到端离线训练的大规模图像对。具体来说，它由用于特征提取的连体子网络和包括分类分支和回归分支的区域提议子网络组成。在推理阶段，所提出的框架被制定为本地一次性检测任务。我们可以预先计算 Siamese 子网的模板分支，并将相关层公式化为普通卷积层来执行在线跟踪。受益于提案细化，可以摒弃传统的多尺度测试和在线微调。 Siamese-RPN 以 160 FPS 的速度运行，同时在 VOT2015、VOT2016 和 VOT2017 实时挑战中取得领先的性能。

Introduction

现代跟踪器分类

基于相关滤波器

第一个分支是基于相关滤波器，它利用循环相关的性质在傅里叶域中进行运算来训练回归函数。它可以同时进行在线跟踪和有效地更新滤波器的权重。原始版本在傅里叶域中进行，随后被广泛应用于跟踪界。最近的基于相关滤波的方法使用深度特征来提高精度，但在模型更新过程中很大程度上损害了速度。

使用深度特征

另一个分支的方法旨在使用非常强的深度特征，并且不更新模型。然而，由于没有使用特定领域的信息，这些方法的性能总是不如基于相关筛选的方法。

本文观点

与最先进的基于相关滤波器的方法相比，离线训练深度学习的跟踪器可以获得具有竞争力的结果。关键是所提议的孪生区域提议网络(SiamRPN)。它由一个模板分支和一个检测分支组成，用大规模的图像对进行端到端离线训练。受最新的建议提取方法RPN[27]的启发，我们在相关特征图上执行建议提取。与标准RPN不同的是，我们使用两个分支的相关特征图进行建议提取。在跟踪任务中，我们没有预先定义的类别，因此需要模板分支将目标的外观信息编码到RPN特征图中，以区分前景和背景。

取得先进性能的原因

首先，该方法可以利用Youtube-BB等大规模训练数据，利用图像对进行离线训练;消融研究表明，更多的数据可以帮助获得更好的性能。其次，我们发现区域建议子网络通常能准确预测建议的规模和比例，从而得到如图所示的紧凑边界盒。
在这里插入图片描述

贡献

1.我们提出了一种基于大规模图像对的离线端到端训练的Siamese区域提议网络(SiameseRPN)来完成跟踪任务。
2.在在线跟踪过程中，提出的框架被表述为一个局部的一次性检测任务，可以改进建议，从而摒弃昂贵的多尺度测试。3.在VOT2015、VOT2016、VOT2017实时挑战中以160 FPS的速度取得领先表现，证明了其准确性和效率的优势。

SiamRPN框架

在这里插入图片描述
如图所示，SiamRPN框架包括用于特征提取的连体子网和用于提议生成的区域提议子网。具体来说，RPN子网中有两个分支，一个负责前景-背景分类，另一个用于建议细化。包括目标对象的图像块被输入到SiamRPN框架中，并且整个系统被端到端地训练。

孪生特征提取子网络

在孪生网络中，我们采用无填充的全卷积网络。令 $L_τ$ 表示平移算子 $L_τx）[u]=x[u-t]$ ，然后移除所有填充以满足步长为 k 的完全卷积的定义：
$h(L_{kτ}x)=L_τh(x)$
在这里，我们使用修改后的 AlexNet，其中来自 conv2 和 conv4 的组被删除。Siamese 特征提取子网由两个分支组成。一种称为模板分支，它接收历史帧中的目标补丁作为输入（表示为z）。另一个称为检测分支，它接收当前帧中的目标补丁作为输入（表示为 x）。这两个分支在 CNN 中共享参数，因此两个补丁通过相同的转换隐式编码，适用于后续任务。为方便起见，我们将 φ(z) 和 φ(x) 表示为连体子网的输出特征图。

区域提议子网络

区域提议子网络由成对相关部分和监督部分组成。监督部分有两个分支，一个用于前景背景分类，另一个用于提案回归。如果有 k 个 anchor，网络需要输出 2k 个通道用于分类，4k 个通道用于回归。因此，成对相关部分首先通过两个卷积层将 $φ (z)$ 的通道增加到两个分支 $φ(z)]_{cls}$ 和 $φ(z)]_{reg}$ ，它们的通道分别为 2k 和 4k 倍。 $φ (x)$ 也被两个卷积层分成两个分支 $φ(x)]_{cls}$ 和 $φ(x)]_{reg}$ ，但保持通道不变。 $[φ (z)]$ 以“组”的方式作为[φ(x)]的相关核，也就是说，一组 $[φ (z)]$ 中的通道数与 $[φ (x)]$ 的总体通道数相同。在分类分支和回归分支上计算相关性：

$A_{w×h×2k}^{cls}=[φ(x)]_{cls}*[φ(z)]_{cls}$

$A_{w×h×4k}^{reg}=[φ(x)]_{reg}*[φ(z)]_{reg}$

模板特征图 $φ(z)]_{cls}$ 和 $φ(z)]_{reg}$ 用作内核，⋆ 表示卷积操作。如图 2 所示， $A^{cls}_{w×h×2k}$ 中的每个点表示为 $(\overline{w},\overline{h}, : )$ 包含一个 2k 通道向量，它表示每个锚点在原始地图上相应位置的负激活和正激活。采用 Softmax loss 来监督分类分支。类似地， $A^{reg}_ {w×h×4k}$ 中的每个点都表示为 $(\widehat{w}, \widehat{h}, :)$ 包含一个 4k 通道向量，它代表 $d x, d y, d w, d h$ 测量锚点和对应的groundtruth 之间的距离。
在使用多个锚点训练网络时，我们使用了 Faster R-CNN 中使用的损失函数。分类损失是交叉熵损失，我们采用归一化坐标的平滑 $L 1$ 损失进行回归。令 $A x, A y, A w, A h$ 表示 anchor box 的中心点和形状， $T x, T y, Tw, T h$ 表示 ground truth box 的中心点和形状，归一化距离为：
在这里插入图片描述

训练阶段：端到端的训练SiamRPN

在训练阶段，样本对以随机间隔从 ILSVRC和 Youtube-BB连续挑选。模板和检测块是从同一视频的两帧中提取的。在使用 Imagenet 预训练Siamese子网络之后，我们使用随机梯度下降 (SGD) 端到端训练 Siamese-RPN。由于需要训练回归分支，因此采用了一些数据增强，包括仿射变换。通过注意到两个相邻帧中的相同对象不会发生太大变化，我们在跟踪任务中选择的锚点少于检测任务。所以只采用了一种具有不同anchor比例的尺度，我们采用的anchor ratio是[0.33,0.5,1,2,3]。
在我们提出的框架中，挑选正负训练样本的策略也很重要。这里采用目标检测任务中使用的标准，我们使用 $I o U$ 和两个阈值 $t hhi$ 和 $t h l o$ 作为测量。正样本定义为具有 $I o U > t hhi$ 的锚点及其对应的基本事实。负数定义为满足 $I o U < t h l o$ 的锚。我们将 $t h l o$ 设置为 0.3，将 $t hhi$ 设置为 0.6。我们还限制了最多 16 个正样本和来自一个训练对的总共 64 个样本。

看做单点检测的跟踪

我们将跟踪任务定义为局部单点检测任务。随后，详细分析并简化了该解释下的推理阶段，以加快速度。最后，介绍了一些具体的策略，使该框架适用于跟踪任务。

构想

我们将一次性检测视为鉴别任务。其目标是找到使预测函数 $φ (x; W)$ 的平均损失 $L$ 最小的参数 $W$ 。它是在由 $n$ 个样本 $x_i$ 和相应标签组成的数据集上计算的 $l_i$ :
在这里插入图片描述
一次性学习旨在从感兴趣的类的单个模板z学习W。辨别性一次性学习的挑战在于找到一种机制，将类别信息纳入学习者，即学会学习。为了解决这一挑战，我们提出了一种使用元学习过程从单个模板 $z$ 学习预测器参数 $W$ 的方法，即将（z；W′）映射到W的前馈函数 $ω$ 。假设 $z_i$ 是一批模板样本，那么问题可以表述为:
在这里插入图片描述
如上所述，让 $z$ 表示模板块， $x$ 表示检测块，函数 $j$ 表示孪生特征提取子网络，函数 $ζ$ 表示区域建议子网络，那么一次检测任务可以表述为：

现在我们可以把孪生子网络中的模板分支重新解释为预测局部检测任务的内核的训练参数，这就是典型的学习学习过程。在这种解释中，模板分支被用来将类别信息嵌入内核，而检测分支则利用嵌入的信息进行检测。在训练阶段，除了成对的边界盒监督外，元学习器不需要任何其他监督。在推理阶段，孪生框架被修剪，除了初始帧，只留下检测分支，从而导致高速。
第一帧的目标补丁被送入模板分支，检测内核被预先计算，因此我们可以在其他帧中进行一次检测。因为局部检测任务是基于初始帧上的模板所给出的类别信息，所以它可以被看作是一次检测。

推理阶段：运行单点检测

我们将模板分支的输出视为本地检测的核。这两个核都是在初始帧上预先计算的，并在整个跟踪期间固定不变。
在这里插入图片描述
如图所示，通过预计算的核对当前特征图进行卷积，检测分支以单次检测的方式进行在线推理。在检测分支上进行前向传递，以获得分类和回归输出，从而得到前M个建议。具体来说，按照我们在公式2中定义的符号，我们将分类和回归特征图表示为点集:
在这里插入图片描述
由于分类特征图上的奇数通道代表正激活，我们收集所有 $A^{cls}_{w×h×2k}$ 中的前 $K$ 个点，其中 $l$ 为奇数，并将点集表示为：
$CLS^*={(x^{cls}_i,y^{cls}_j,c^{cls}_l)i∈i,j∈j,l∈l}$ ，其中 $i, j, l$ 是某个索引集。变量 $i$ 和 $j$ 分别编码对应锚点的位置， $l$ 编码对应锚点的比值，因此可导出对应锚点集为：
$ANC^* = {(x^{an}_i, y^{an}_j, w^{an}_l, h^{an}_l)i∈i,j∈j,l∈l}$ 。
此外，我们发现 $ANC^*$ 在 $A^{cls}_{w×h×4k}$ 上的激活，得到对应的精化坐标为 $REG^*= {(x^{reg}_i, y^{reg}_ j, dx^{reg}_l, dy^{reg}_l, dw^{reg}_l, dh^{reg}_ l)i∈i,j∈j,l∈l}$ 。然后，细化的 $t o p K$ 建议集 $PRO^* = {(x^{pro}_i, y^{pro}_j, w^{pro}_l, h^{pro}_l)}$ 可由以下公式(Eq. 12)得到:
在这里插入图片描述
在生成前K个建议后，我们使用一些建议选择策略使它们适合跟踪任务。

提议选择策略

为了使一次性检测框架适合于跟踪任务，提出了两种选择建议的策略。
第一种建议选择策略是丢弃由离中心太远的锚点生成的边界框。例如，我们只保留 $A^{cls}_{w×h×2k}$ 分类特征图上的中心 $g \times g$ 子区域，得到 $g \times g \times k$ 锚，而不是 $m \times n \times k$ 锚。由于邻近帧总是没有大的运动，丢弃策略可以有效地去除异常值。下图为选择分类特征图中距离中心不大于7的目标锚的示意图。
在这里插入图片描述
第二种方案选择策略是利用余弦窗和尺度变化惩罚对方案的得分进行重新排序，得到最佳方案。在丢弃异常值后，添加余弦窗来抑制大位移，然后添加惩罚来抑制大小和比例的较大变化:

这里k是一个超参数。r代表提案的高宽比，r '代表最后一帧的高宽比。S和S’代表提案和最后一帧的整体规模，计算如下:
$w+p)×(h+p)=s^2$
其中w和h表示目标的宽度和高度，p表示填充，等于 $\frac{w+h}{2}$ 。
在这些操作之后，将分类分数乘以时间惩罚后，对前K个建议进行重新排名。然后进行非极大值抑制，得到最终的跟踪边界框。在最终选定边界框后，通过线性插值更新目标尺寸，保持形状的平滑变化。

结论

在这项工作中，我们提出了孪生区域提议网络（SiamRPN），该网络使用ILSVRC和YoutubeBB的大型图像对进行端到端的离线训练。SiamRPN可以通过应用框精化过程获得更精确的边界框。在在线跟踪过程中，提出的框架被定义为一个局部单镜头检测任务。在实验中，我们的方法可以在160 FPS的速度下，在VOT2015、VOT2016和VOT2017实时挑战中取得领先的性能。