虚实结合：无需人工标注的可泛化行人再辨识-CSDN博客

关注公众号，发现CV技术之美

✎ 编者言

本文作者提出一个虚实结合的行人再辨识新思路：通过半监督方式联合训练有标签虚拟数据和无标签真实数据，取得更好的可泛化行人再辨识性能，并且其无需人工标注的优点更具有规模化的可扩展性和实际应用价值。

详细信息：

论文名称：DomainMix: Learning Generalizable Person Re-Identification Without Human Annotations
论文链接：https://arxiv.org/abs/2011.11953
项目链接：https://github.com/WangWenhao0716/DomainMix

简介

随着深度学习的发展，行人再辨识的准确度取得了很大的进步。但是，训练好的模型在全新的场景下部署时泛化能力往往较低。也正因为此，大规模商业化行人再辨识面临困难。我们发现，其中的一大部分原因是缺少大规模的有标注的真实数据训练集。然而，标注大规模的真实数据通常是费时费力的。所以，近年来，一些工作开始关注用大规模合成数据集训练实现可泛化的行人再辨识。

有鉴于此，我们提出了一个更具有实际应用价值的行人再辨识任务A+B->C：即如何利用大规模有标签的合成数据集A和无标签的真实数据集B训练出能泛化到未知场景C的模型。该任务不再依赖于对真实数据的手工标注，因此可以扩展到更大规模、更多样化的真实数据上，从而提高模型的泛化能力。在实现“开箱即用”的行人再辨识方法中，该任务是更具潜力且成本低廉的方案。

作为抛砖引玉，针对该任务我们提出了一个新的方法，即DomainMix。所提出的方法可以很好地从有标签的虚拟数据和无标签的真实数据中学习。实验表明，这种完全不需要人工标注的方法可以在泛化能力上跟需要手工标注的方法相媲美。

该工作已被 BMVC 2021 接收。

引言

行人再辨识（re-ID）的目标是在不同时间、地点等拍摄的许多行人图像中匹配给定的行人图像。随着深度学习的发展，全监督的行人再辨识已经得到了广泛的研究并且取得了长足进步。然而，当一个训练好的模型在全新的未知数据集测试时，显著的性能下降依然会发生。目前已知算法的泛化能力主要受两方面限制。第一，人们设计算法时很少考虑算法的泛化能力。很少有算法专门为域泛化设计。第二，公开的数据集中行人数量有限，并且多样性也较差。

标注大规模且多样性高的真实数据集是十分昂贵的，也十分耗时。比如，标注MSMT17数据库（4,101人，126,441图像）耗费三个人联合标注了两个月。为了解决这个问题，最近一个工作RandPerson启发我们使用大规模合成数据做行人再辨识的训练，这样就省去了人工标注。然而，如果只使用合成数据集，模型的泛化能力依旧是有限的。这是因为在虚拟数据和真实数据之间依然存在较大的域差异。一个解决办法是直接将虚拟数据和有标签的真实数据混合，并从中学习。虽然性能得到了提升，该方法依旧严重依赖手工标注的真实数据。同时，采用常见的方法训练的话，域差异的问题依旧存在。

所以，本文的目标是在完全无手工标注的情况下学习可以泛化的行人再辨识，这样可以利用真实世界中大规模且多样化的无标签数据。特别地，我们的目标是如何将有标签的虚拟数据和无标签的真实数据相结合以训练出更具有泛化能力的开箱即用的模型。所提出的问题见图1所示。这里实现域泛化的关键是如何同时充分利用虚拟数据集中有判别性的标签以及无标签的真实数据集中的图片的样式及其多样性。

为了解决这个问题，我们提出了DomainMix框架。所提出的方法首先将无标签的真实图片聚类，并从中选出可靠的类别。训练过程中，为解决两个域之间的差异，我们通过提出域平衡损失函数来引导在域不变特征学习和域区分之间的对抗训练。这样既减少了虚拟数据和真实数据之间的域差异；大规模和多样性的训练数据又使得学到的特征更有泛化能力。

图一：提出的A+B->C任务，即：如何使用有标签的虚拟数据集A和无标签的真实数据集B训练出一个可以泛化到未知的数据集C的模型。

正文

DomainMix框架

为了解决上述问题，我们提出了DomainMix框架。该框架主要由基于聚类的动态训练数据集生成和域不变的行人再辨识特征学习两部分组成。在动态训练数据集生成部分，我们设计了三个准则用于筛选聚类结果，由此动态生成可靠的训练集；在域不变的行人再辨识特征学习部分，首先，在每一个训练阶段前，分类层被动态初始化以加速分类损失的收敛；其次，在训练时，和常用的行人再辨识损失函数一起，我们额外设计了一个域平衡损失用来学习域不变的特征。因此，我们提出的 DomainMix框架可以很好地泛化到未知的域中。该方法的示意图如图2所示:

图2：DomainMix框架设计。在每个训练段，无标签的真实图片首先被 DBSCAN 聚类然后被三个准则挑选。然后，根据上一阶段训练结果和打上伪标签的真实数据的特征对分类层自适应初始化。在训练过程中，使用两个域的数据训练骨干网络以提取有区分的、域不变的、可以泛化的特征。另外，借助域分类损失函数，域分类器可以将每个特征正确地分到它所属的类别。

两域混合

动态训练数据集生成

在每个训练段，给DomainMix框架的训练数据集是动态产生的。可靠的数据根据 3 个准则被挑选，即：独立性、紧凑性、数量。对于独立性和紧凑性，他们来自论文SpCL，用来判断一个聚类是否远离其他的聚类和在同一个聚类里的样本是否有较小的间距。对于数量，我们认为一个可靠的聚类应该包含足够多的样本以带来多样性。

进一步，如果一个包含图片太少的类被选择，就会导致训练过程中类别数过多，进一步影响训练。在真实域中的图片被编码为特征后，得到的特征被特定的聚类算法，如 DBSCAN 聚类，进一步，产生的聚类被三个准则筛选。在可靠的聚类中的图片被保留下来，打上伪标签，和有标签的虚拟数据集一起训练。

自适应分类器初始化

因为训练集是在每个训练段动态产生的，所以训练集中类别数不是固定的。于是，我们无法在全部训练过程中使用同一个分类层，同时，随机初始化会带来不收敛的问题。所以，我们使用了自适应分类器初始化的方法来加快和保证分类器训练的收敛。一个分类层可以被分为合成部分和真实部分。

对于合成部分，因为合成域的类别数在不同的训练阶段不变化，所以，每到一个新的训练阶段时，它直接被初始化为上一个阶段的训练结果即可。对于真实部分，因为聚类和选择在不断地发生，所以类别数一直在变化。所以该部分被初始化为聚类中向量的中心。

采用该自适应初始化方法聚类的好处在两个方面。对于合成部分，该初始化方法享受了简便性和全监督学习的稳定性。对于真实部分，在初始化后，给定特征属于他自身类的概率要大于属于其他类的概率，因此训练分类器变得容易。

域不变和有区分性的特征学习

给定产生的训练集和一个初始化好的网络，这部分主要关注如何从两个域去学习有区分度、域不变、可以泛化的特征。我们通过交换训练域分类器和骨干网络来实现这一功能。域分类器被用来将给定特征分到其属于的类。具体来讲，来自合成域和真实域的图片的特征被骨干网络所提取。然后，域分类器被训练来判断提取的特征来自哪一个域。

为了鼓励骨干网络去提取域不变的特征，它被训练来迷惑域分类器。因此，我们提出了一个域平衡损失函数，定义如下:

其中是的第个坐标分量，是一个常数用来防止损失函数出现小于的情况。在该损失函数中，考虑函数:

的二阶导数为

所以，该函数是下凸函数。给定，根据琴声不等式，则该函数的最小值当时被取到。所以，当被最小化时，和之间的距离被缩短。因此，对于给定特征，其属于两个域的概率趋于相同，即骨干网络可以通过迷惑域分类器来提取域不变的特征。除了学习域不变特征，网络还被行人再辨识中有区分度的准则来训练。

实验

和最先进的算法比较

我们将提出的 DomainMix 框架与其他最先进的算法在三个域泛化的任务，即直接在 Market1501，CUHK03-NP 和 MSMT17上测试，上进行比较。实验结果见表1。

值得注意的是，无论如何，一个完全公平的比较是不可行的，因为我们只使用了无标签的真实数据(尽管有额外的合成数据)，而其他方法均使用了有标签的真实数据。所以，在表一中的结果只是用来辅助对比我们完全不使用手工标签的方案可以达到多高的准确度。第二，我们提出的方案是和其他的方法相融的。

因此，我们可以进一步采用其他创新的方法来提高性能。表一中我们性能的提升主要归功于两方面。第一，直接将虚拟数据和真实数据相结合增加了源域的多样性和规模。第二，域平衡损失函数进一步强制网络学习到了域不变的特征并最小化了合成数据和真实数据之间的域差异。

表一（原论文Table 2）：和最先进的算法在Market1501，CUHK03-NP 和 MSMT17三个数据集上进行比较。

消融实验

为了证明 DomainMix 框架中每个组件的必要性，我们在两个不同的域泛化任务上做了大量的综合实验，即：标注的 RandPerson 和未标注的 MSMT17 训练， Market-1501测试；标注的 RandPerson 和未标注的 CUHK03-NP 训练，Market-1501 测试。实验结果和分析如下：

1．动态产生训练数据集的有效性

为了证明动态产生训练数据集的必要性以及每个组件的重要性，我们比较了在两个不同的真实数据集，即 MSMT17 和 CUHK03-NP上训练的模型的泛化能力。基准模型的性能表现在表二记作 “DBSCAN”。如果独立性和紧凑性准则被使用，那么性能记作 “DBSCAN + I + C”;如果数量准则被使用，那么性能被记作 “DBSCAN + Q”。“DBSCAN + I + C + Q” 代表着三个准则全被使用。

在 “RP+MSMT → Market” 任务上，数量准则最高可以提高 4.9% 的 mAP；对于 “RP+CUHK → Market” 任务，mAP 最高可以提高 5.0%。然而，如果独立性和紧凑性准则被独立使用，没有稳定的性能提高。这是因为，尽管这两个准则可以移除不可靠的聚类，但是仍然存在一些包含过少图片的聚类参与训练，这影响了分类器的训练过程。如果和我们提出的数量准则一起使用，上述的问题就得到了解决，这两个准则可以进一步提升性能。

2. 分类器自适应初始化的有效性

为了证明提出的自适应分类器初始化方法的有效性，使用或者不使用该方法的实验结果在表二中分别为 “Without ACI” 和 “With ACI”。在 ResNet-50 骨干网络，这个初始化方法带来显著的性能提升，即：在 “RP+MSMT → Market” 和 “RP+CUHK → Market” 任务上分别提升了 14.0% 和 6.0% 的 mAP。这个显著的提高来自于对收敛的保证与加速。

3. 域平衡损失函数的有效性

为了证明使用域平衡损失函数去学习域不变特征的重要性，使用不使用该损失函数得到的结果在表二中分别为 “Without DB” 和 “With DB”。相较于不使用域平衡损失，所有使用的在 “RP+MSMT → Market” 和 “RP+CUHK → Market” 两个任务里均获得了性能的提升。

特别地，当源域中真实数据集为 MSMT17时，mAP 在 ResNet-50 和 IBN-ResNet-50 两个骨干网络上均提高了 3.4%。对于 ‘RP+ CUHK → Market’ 任务，我们也可以观察到类似的性能提升，即 2.5%mAP 提升。

表二（原论文Table 1）: 在两个任务上对 DomainMix 框架中每个成分的消融实验

结论

本文提出了一个更实用、更具普适性的行人再辨识任务，即如何将有标签的合成数据集与无标签的真实世界数据相结合，以训练更通用的模型。为了解决这个问题，我们引入了DomainMix框架，完全消除了人工标注的需求，缩小了合成数据和真实数据之间的差距。大量实验表明，本文提出的无需人工标注的方法对于域泛化行人再辨识具有优越性。

END