学习笔记：A Novel Unsupervised Camera-aware Domain Adaptation Framework for Person Re-identification

最新推荐文章于 2024-09-15 15:29:29 发布

xiyue-

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量83

点赞数 2

文章标签：人工智能机器学习学习笔记 python

本文链接：https://blog.csdn.net/m0_59713773/article/details/134062459

版权

摘要：无监督跨域行人重识别( ReID )面临两个关键问题。一个是源域和目标域的数据分布差异，另一个是目标域缺乏标签信息。本文从表征学习的角度对它们进行了研究。对于第一个问题，我们强调了相机级子域的存在是行人重识别的一个独特特征，并开发了"相机感知"域适应，以减少源域和目标域之间以及跨这些子域之间的差异。对于第二个问题，我们利用目标域中每个相机的时间连续性来创建判别信息。这是通过在每个批次内动态生成在线三元组来实现的，以达到最大化。

无监督跨域行人重识别存在两个问题:

其一是由于人体姿态、视角、光照、图像分辨率、遮挡和背景等变化引起的源域和目标域数据分布差异。
另一类是由于在实际应用中人工标注费时甚至不可行，导致目标领域的标签信息缺失

框架主要包含三个目标：

源域标记图像的分类
基于对抗学习的相机感知域自适应
在目标域中增强判别信息

对于目标2（Camera-aware domain adaptation）：

在行人重识别中，不同摄像机的图像构成了一组独特的单元。这也体现在跨领域差异上。仅仅降低源域和目标域的整体差异并不能有效地处理相机级差异，这会对学习到的特征表示质量产生不利影响。我们提出了一种相机感知的域适应，将不同相机的图像映射到一个共享的子空间中。为了实现这一点，开发了一种相机感知的对抗学习(简言之, CAL)方法。与传统的处理两个域的对抗学习不同，CAL处理多个子域(即源域和目标域中的摄像机)。

设Xs和Xt分别为源域和目标域的训练图像，X = [ Xs、Xt]。图像在X中的摄像机编号(即,每个相机类的标签)用Yc表示。令Cs和Ct分别表示源域和目标域的相机数量，且C = Cs + Ct。对抗学习涉及到判别器和生成器的优化。正如通常所见，本工作中的鉴别器是通过定义在源域和目标域的C相机类上的交叉熵损失来优化的

式中：x为图像，yc为x的相机类标签，δ ( · )为δ函数。B表示骨干网络，B ( x )为x的特征表示。D表示判别器，D ( B ( x )，k )表示x关于第k个相机类别的预测得分。

Figure 1. Illustration of training the backbone network B with the proposed cross-domain camera equiprobability (CCE) loss in our CAL method at each iteration. FC and GAP stand for fully connected layer and global average pooling. The top of the figure shows that each image in target domain (in blue) is required to be equiprobably misclassified into all camera classes in source domain (in red). The bottom similarly shows the case for each image in source domain. The discriminator is set as a 128-d FC layer.

对于目标三（Unsupervised online triplet generation）：

即使部署了上述相机感知的域适应，仅减小跨域分布差异是不够的。相反，保持目标域的内在属性同样重要。否则，仅为了减小分布差异就可以任意改变目标域的分布，从而显著降低目标域的Re - ID性能。为了避免这种情况，该框架探索了目标域中潜在的判别信息。

一旦在一个训练批次中产生三元组，我们就可以通过定义为的三元组损失来训练骨干网

其中Wa为零，如果Ia没有正像，否则为1. 当t > 0时，[ t ] +等于t，否则为零. m是边界值和分别为正、负样本距锚点的平均距离

Figure 2. Illustration of the proposed unsupervised camera-aware domain adaptation framework, where FC and GAP denote fully connected layer and global average pooling. #PID and UOT denote the total number of person classes in source domain and unsupervised online triplet generation, respectively.

总体框架(The overall proposed framework)：

该框架由源域和目标域的跨摄像机(子域)对抗任务、目标域判别任务和源域分类任务组成，如图2所示。一个训练批次中的总体损失函数表示为:

式中：LCross、LTriplet和LCAL - B分别为源域的交叉熵损失、目标域的三元组损失和B的对抗损失，λ 1和λ 2为权衡参数。Zs为Xs在源域中的人物ID。为了计算LTriplet，在每次迭代中，随机选择目标域中的一个相机来构造训练批并生成三元组。

论文做出的贡献：

首先，考虑到行人重识别中相机级子域的独特存在性，提出了一种相机感知的域自适应方法。据我们的调查，我们的基于对抗学习的方法是第一个方法，其中的目的是学习更好的特征表示，在这个精细的级别上整合源域和目标域。
第二，提出了一种无监督的在线批内三元组生成方法来探索未标记目标域中潜在的判别信息。通过高质量的三元组，为提升整个框架的性能提供了重要的信息。
最后，通过理论分析和实验研究对所提出的相机感知域适应方法进行了验证。结果和消融研究证明了占优势者