Domain Adaptive SiamRPN++ for Object Tracking in the Wild

论文

Motivation

基于孪生网络的跟踪算法均假定训练和测试数据遵循相同的分布,然而在正常图像上训练的跟踪器并不能保证在其他领域的数据上(如雨雾天气的序列)也表现良好,即存在域偏移(domain shift)问题,如图 1 和图 2。作者称本文是首次将域分布差异问题引入视觉跟踪领域。

针对这一问题,本文提出一种域自适应方法,包括 Pixel Domain Adaptation (PDA) 和 Semantic Domain Adaptation (SDA)。PDA 分别对(不同域的)模板和搜索图像的特征对齐,消除天气、光照等引起的像素级域偏移;SDA 将(不同域的)跟踪目标的特征表达对齐,以消除语义级的域偏移。二者均通过对抗训练的方式学习域分类器,域分类器强制网络学习域不变的特征表达,从而实现域自适应。

最后作者在有雾和红外序列两个不同域的数据集上进行了验证。

Theoretical Preliminaries

最简单粗暴的方法就是搜集许多具有不同域的标注训练数据,但这显然不现实。因此我们的目标是针对无监督域自适应场景(即源域有标记而目标域未标记),使跟踪器在源域和目标域上都表现良好,而不需要额外的标注成本。一种通用的方案就是学习域不变(domain-invariant)的特征表达来缩小不同域之间的差异。作者利用 A-distance 理论和概率分析来实现这一目的,下面先简单介绍这些概念。

A-distance

给定源域S和目标域 T, A-distance 可以用于衡量两个域样本分布的差异,定义如下:

其中 h 表示域分类器,h (x)\rightarrow 0表示样本 x 属于源域,h (x)\rightarrow 1表示样本 x 属于目标域。min \ error (h (x))表示理想域分类器的预测误差,显然,误差越小(越容易区分)表示域差异越大。现在要最小化域差异d_A (S,T)以实现特征对齐,等价于要最大化理想域分类器误差,即 

其中 f 表示样本 x 的特征表达。公式 (3) 是特征提取器 f 和域分类器 h 之间的 minimax 优化问题。这个怎么理解呢?其实类似 GAN,域分类器 h 需要尽可能区分不同域的样本,而特征提取 f 需要欺骗分类器让其难以区分不同域,即让 f 提取到域不变特征。

作者在优化这个问题时采用 Gradient Reversed Layer (GRL),如下图所示,在梯度从域分类器传到特征提取之前将其取负号反转,希望粉色部分的参数向L_d减小的方向优化,绿色部分的参数向L_d增大的方向优化,用一个网络一个优化器就实现了两部分有不一样的优化目标,形成对抗的关系。(参考 Gradient Reversal Layer 指什么? - Just4Fan 的回答 - 知乎 )

Probabilistic Analysis for Object Tracker

作者将跟踪问题看成一个后验概率P (S,B|Z,X),即给定模板 Z 和搜索区域 X,预测分类得分 S 和目标框 B。由于域偏移的存在,源域的联合概率分布P_S (S,B,Z,X)与目标域的联合概率分布P_T (S,B,Z,X)是不同的。

Pixel Domain Adaptation 根据贝叶斯公式,可以将联合概率分布分解成:

其中i \in \{S,T\}。条件概率P (S,B|Z,X)相当于跟踪器的分类回归分支,我们假设这部分对于不同域是一样,那么域偏移主要来自模板和搜索图像的特征提取P (Z,X)。为了消除域偏移,需要另 Siamese 网络提取域不变的特征映射,即P_S (Z,X) = P_T (Z,X)

Semantic Domain Adaptation 上面 PDA 解决天气或光照引起的全局域偏移,但不同域的目标还存在外观和类别的变化,因此还需要考虑目标语义的域偏移。类似的,可以将联合概率分解成:

同样假设条件概率 P (S | B,Z,X)对于不同域是一样的,那么域偏移主要来自P (B,Z,X)。为了消除偏移,需要P_S (B,Z,X) = P_T (B,Z,X),表示给定了模板、搜索区域以及对应的目标框,跟踪目标的特征表达要是一样的。考虑到目标域是没有真实框标注的,因此这里统一采用 RPN 的预测框表示 B。

Method

图 3 是整体方法框架,根据上一节的 A-distance 理论以及概率分析,作者提出了 PDA 和 SDA 两个模块。其中 PDA 针对的是孪生网络的整体特征,SDA 针对的是预测框内的目标特征。

Pixel Domain Adaptation

PDA 包括模板对齐和搜索区域对齐,目的是通过域分类器和 Siamese 网络之间的 minimax 优化来混淆跨域的特征映射。域分类器由 Conv+MaxPool+FC 组成,FC 层对每个像素进行二值分类,损失函数为:

m,n 为像素位置,D 是标签,p 是预测结果。然后按照公式 3 的 minimax 优化,需要对域分类器参数最小化该损失,对 siamese 特征提取参数最大化该损失,即

\omega_{pda}表示 PDA 域分类器参数,\varphi表示孪生网络参数。域分类器的参数更新方向与减少域分类损失的方向相同,这与普通的训练方法相同;而 Siamese 网络的参数更新方向被反转(GRL),这正是增加域分类损失的方向,二者形成对抗。

Semantic Domain Adaptation

由于不同域的类别、视角和姿态的变化,跟踪目标会发生明显的变化,SDA 强制跟踪目标的特征表示在语义上是域不变的。具体过程为,通过 ROI Align 提取预测框内的 multi-layer 的 ROI 特征,域分类器(两层 FC)对其进行分类,GRL 放在域分类器和 ROI Align 之间。域分类损失为:

同样以对抗的方式训练 SDA

\omega_{sda}表示 SDA 域分类器参数,\varphi表示孪生网络参数。无论跟踪目标来自源域还是目标域,目标的域不变特征都能在分数图中获得较高的响应。

最后总的训练损失包括孪生跟踪器的损失和域自适应损失

Experiments

训练时使用 LaSOT 作为源域数据,Foggy GOT-10k 和 LSOTB-TIR 作为目标域数据。Foggy GOT-10k 是作者生成的有雾数据集,LSOTB-TIR 是红外数据集,注意二者作为目标域数据训练时是没有标注的。模板和搜索图像的裁剪通过运行现有的 SiamRPN++ 对目标域数据集获取伪标签得到的。

表 1-4 展示了正常天气到有雾的跨域和 RGB 到红外的跨域的跟踪结果。这里的比较方式有点迷,作者列出每个 epoch 的结果证明性能的提升,但如果只关注最好的结果发现的性能提升其实不明显。比如 Foggy VOT2018 0.211 v.s. 0.218,LSOTB-TIR 0.543 v.s. 0.547。

消融实验也呈现一样的结果,如果只比较最好的性能,单独的 PDA 和 SDA 甚至不如 baseline。

其他的一些可视化结果。图 6 将特征压缩到平面证明了源域和目标域的特征混淆在一起,证明了域不变特征。图 7 证明了提出的方法在跨域性能表现良好的同时,不会损失在源域上的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值