Domain Adaptive SiamRPN++ for Object Tracking in the Wild

最新推荐文章于 2024-10-04 22:36:54 发布

wang15771397344

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量97

点赞数

文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/wang15771397344/article/details/132454635

版权

论文

Motivation

基于孪生网络的跟踪算法均假定训练和测试数据遵循相同的分布，然而在正常图像上训练的跟踪器并不能保证在其他领域的数据上（如雨雾天气的序列）也表现良好，即存在域偏移（domain shift）问题，如图 1 和图 2。作者称本文是首次将域分布差异问题引入视觉跟踪领域。

针对这一问题，本文提出一种域自适应方法，包括 Pixel Domain Adaptation (PDA) 和 Semantic Domain Adaptation (SDA)。PDA 分别对（不同域的）模板和搜索图像的特征对齐，消除天气、光照等引起的像素级域偏移；SDA 将（不同域的）跟踪目标的特征表达对齐，以消除语义级的域偏移。二者均通过对抗训练的方式学习域分类器，域分类器强制网络学习域不变的特征表达，从而实现域自适应。

最后作者在有雾和红外序列两个不同域的数据集上进行了验证。

Theoretical Preliminaries

最简单粗暴的方法就是搜集许多具有不同域的标注训练数据，但这显然不现实。因此我们的目标是针对无监督域自适应场景（即源域有标记而目标域未标记），使跟踪器在源域和目标域上都表现良好，而不需要额外的标注成本。一种通用的方案就是学习域不变（domain-invariant）的特征表达来缩小不同域之间的差异。作者利用 A-distance 理论和概率分析来实现这一目的，下面先简单介绍这些概念。

A-distance

给定源域 $S$ 和目标域 $T$ ， A-distance 可以用于衡量两个域样本分布的差异，定义如下：

其中 h 表示域分类器， $h (x)\rightarrow 0$ 表示样本 x 属于源域， $h (x)\rightarrow 1$ 表示样本 x 属于目标域。 $min \ error (h (x))$ 表示理想域分类器的预测误差，显然，误差越小（越容易区分）表示域差异越大。现在要最小化域差异 $d_A (S,T)$ 以实现特征对齐，等价于要最大化理想域分类器误差，即

其中 f 表示样本 x 的特征表达。公式 (3) 是特征提取器 f 和域分类器 h 之间的 minimax 优化问题。这个怎么理解呢？其实类似 GAN，域分类器 h 需要尽可能区分不同域的样本，而特征提取 f 需要欺骗分类器让其难以区分不同域，即让 f 提取到域不变特征。

作者在优化这个问题时采用 Gradient Reversed Layer (GRL)，如下图所示，在梯度从域分类器传到特征提取之前将其取负号反转，希望粉色部分的参数向 $L_d$ 减小的方向优化，绿色部分的参数向 $L_d$ 增大的方向优化，用一个网络一个优化器就实现了两部分有不一样的优化目标，形成对抗的关系。（参考 Gradient Reversal Layer 指什么？ - Just4Fan 的回答 - 知乎 )

Probabilistic Analysis for Object Tracker

作者将跟踪问题看成一个后验概率 $P (S,B|Z,X)$ ，即给定模板 Z 和搜索区域 X，预测分类得分 S 和目标框 B。由于域偏移的存在，源域的联合概率分布 $P_S (S,B,Z,X)$ 与目标域的联合概率分布 $P_T (S,B,Z,X)$ 是不同的。

Pixel Domain Adaptation 根据贝叶斯公式，可以将联合概率分布分解成：

其中 $i \in \{S,T\}$ 。条件概率 $P (S,B|Z,X)$ 相当于跟踪器的分类回归分支，我们假设这部分对于不同域是一样，那么域偏移主要来自模板和搜索图像的特征提取 $P (Z,X)$ 。为了消除域偏移，需要另 Siamese 网络提取域不变的特征映射，即 $P_S (Z,X) = P_T (Z,X)$

Semantic Domain Adaptation 上面 PDA 解决天气或光照引起的全局域偏移，但不同域的目标还存在外观和类别的变化，因此还需要考虑目标语义的域偏移。类似的，可以将联合概率分解成：

同样假设条件概率 $P (S | B,Z,X)$ 对于不同域是一样的，那么域偏移主要来自 $P (B,Z,X)$ 。为了消除偏移，需要 $P_S (B,Z,X) = P_T (B,Z,X)$ ，表示给定了模板、搜索区域以及对应的目标框，跟踪目标的特征表达要是一样的。考虑到目标域是没有真实框标注的，因此这里统一采用 RPN 的预测框表示 B。

Method

图 3 是整体方法框架，根据上一节的 A-distance 理论以及概率分析，作者提出了 PDA 和 SDA 两个模块。其中 PDA 针对的是孪生网络的整体特征，SDA 针对的是预测框内的目标特征。

Pixel Domain Adaptation

PDA 包括模板对齐和搜索区域对齐，目的是通过域分类器和 Siamese 网络之间的 minimax 优化来混淆跨域的特征映射。域分类器由 Conv+MaxPool+FC 组成，FC 层对每个像素进行二值分类，损失函数为：

m,n 为像素位置，D 是标签，p 是预测结果。然后按照公式 3 的 minimax 优化，需要对域分类器参数最小化该损失，对 siamese 特征提取参数最大化该损失，即

$\omega_{pda}$ 表示 PDA 域分类器参数， $\varphi$ 表示孪生网络参数。域分类器的参数更新方向与减少域分类损失的方向相同，这与普通的训练方法相同；而 Siamese 网络的参数更新方向被反转（GRL），这正是增加域分类损失的方向，二者形成对抗。

Semantic Domain Adaptation

由于不同域的类别、视角和姿态的变化，跟踪目标会发生明显的变化，SDA 强制跟踪目标的特征表示在语义上是域不变的。具体过程为，通过 ROI Align 提取预测框内的 multi-layer 的 ROI 特征，域分类器（两层 FC）对其进行分类，GRL 放在域分类器和 ROI Align 之间。域分类损失为：

同样以对抗的方式训练 SDA

$\omega_{sda}$ 表示 SDA 域分类器参数， $\varphi$ 表示孪生网络参数。无论跟踪目标来自源域还是目标域，目标的域不变特征都能在分数图中获得较高的响应。

最后总的训练损失包括孪生跟踪器的损失和域自适应损失

Experiments

训练时使用 LaSOT 作为源域数据，Foggy GOT-10k 和 LSOTB-TIR 作为目标域数据。Foggy GOT-10k 是作者生成的有雾数据集，LSOTB-TIR 是红外数据集，注意二者作为目标域数据训练时是没有标注的。模板和搜索图像的裁剪通过运行现有的 SiamRPN++ 对目标域数据集获取伪标签得到的。

表 1-4 展示了正常天气到有雾的跨域和 RGB 到红外的跨域的跟踪结果。这里的比较方式有点迷，作者列出每个 epoch 的结果证明性能的提升，但如果只关注最好的结果发现的性能提升其实不明显。比如 Foggy VOT2018 0.211 v.s. 0.218，LSOTB-TIR 0.543 v.s. 0.547。