域适应行人重识别中的多中心表征网络(AAAI 2022)

最新推荐文章于 2022-12-19 12:10:43 发布

OpenCV中文网公众号

最新推荐文章于 2022-12-19 12:10:43 发布

阅读量564

点赞数 1

文章标签：聚类大数据算法 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzODkxNzQzMw==&mid=2247493219&idx=1&sn=c01164658d6c3269a370ff5f6fac3153&chksm=fad2c935cda54023830e714ae488b3568971bc4df95bae0eeab81a155e0f435076a1692e6620&scene=126&&sessionid=0

版权

关注公众号，发现CV技术之美

本文转载自旷视研究院

此篇论文已被AAAI 2022 收录，论文链接请见“阅读原文”。

行人重识别（Person Re-ID）在视频监控、安防及刑侦等领域中都有着巨大的应用前景及价值，其目标是根据一个人物在某个摄像头下的图片（通常称为 query）找到同一个人物在其他摄像头图像底库（通常称为 gallery）下出现的图片。

真实部署环境下，由于摄像头、不同城市场景、不同季节等诸多外界因素的影响，图像成像质量（光照、清晰度等）、人物的着装、所处的背景环境都会有着巨大的差异，即存在域差异（domain gap）。

域差异的存在，导致在训练集上训练好的模型难以适应真实部署环境，进而导致性能的衰退。一方面，训练集难以覆盖 Open world 的无限应用场景，另一方面，通才也难以超越专家。因此学术界和工业界不少研究工作者都致力于提升模型的域适应能力。

本文介绍了我们发表在 AAAI 2022 中的一篇关于行人重识别域适应的工作，本文提出了一种新颖的多中心表征网络，有效地提升了 ReID 模型的域适应能力，在多个常见的 ReID 域适应数据集上都取得了领先结果。

域适应行人重识别

域适应行人重识别的目标是将从源域（source domain）学习到的知识迁移到目标域（targetdomain)，从而提升 Re-ID 模型在真实部署环境下的性能表现。基于伪标签聚类的方法是一种常见的域适应方法范式，其通常包括两个步骤：

（1）首先在目标域上通过聚类算法得到图像的伪标签（即 Person ID)

（2）使用同一个簇内的样本平均特征或使用可学习的参数作为该 ID 的特征表示，并在目标域上进行 fine-tune。

这种方案假定了聚类的可靠性，并使用了单中心（Uni-Centroid）特征来表征簇内所有图像。然而实际中由于聚类结果并不可能是完美的，同一个簇内可能包含来自不同 ID 的图像，即存在噪声。在这种情况下，使用单中心来表征整个簇内的图像是不合适的。

如下图 1(a)所示，在簇内存在多个 ID 时，使用簇内所有图像的平均特征来表征该簇是不合适的，得到的单中心表征对簇内地任意一种类别来说都不是一种良好的表示，距离类别真实的中心都存在较大的偏差。

图1 单中心表征与多中心表征

区别于以往的单中心表征方法，我们提出了一种新颖的多中心（Multi-Centroid）表征方案。如图 1（b）所示，多中心表征方法为单个簇生成了多个有代表性的中心，使得为每个 query 挑选最合适的中心成为可能。

在本文中，我们详细介绍了多中心的生成策略，并相应提出了一种新颖的正负样本挑选策略，最大化发挥了多中心表征的长处，抑制了簇内噪声对模型优化的负面影响。

多中心表征网络

在图2中，首先展示了我们提出的多中心表征网络（Multi-Centroid Representation Network, 简称 MCRN）的整体训练流程。训练过程中，MCRN 交替执行以下两个阶段：准备阶段（见图2 (a)）和优化阶段（见图2 (b)）。

准备阶段，我们使用编码器（Encoder)提取目标域图片的特征，并通过聚类算法生成伪标签。根据聚类结果，我们创建并初始化了一个多中心表征缓存（Multi-Centroid Memory，简称 MCM）。

下文中会对 MCM 进行详细的介绍。优化阶段，我们基于一套完备的正负样本挑选策略来从 MCM 中挑选合适的样本来优化 Encoder。为了进一步提升模型的性能，我们提出了一种新颖的二阶近邻插值（Second-OrderNearest Interpolation，简称 SONI）策略来生成具有判别性的负样本。

此外，我们发现在优化过程中，来自同一个域的负样本的价值要远远大于来自其它域的负样本，因此我们提出了一种新颖的域内对比学习（Domain Specific Contrastive Learning，简称 DSCL）优化方式。

图2 多中心表征网络训练流程

多中心表征缓存（MCM）

在该部分中，我们将详细介绍多中心表征缓存 MCM 的初始化及更新方式。在上文中，我们提到了多中心表征网络训练流程包含准备和优化两个阶段。具体来说，训练的每个周期（epoch）开始时都会进行准备阶段，我们首先使用编码器提取源域和目标域所有图片的特征，并通过 DBSCAN 聚类算法将目标域的图片划分为多个簇。

MCM 初始化为一个的向量，其中 M 表示 MCM 的容量，即能够存储的中心特征的最大数目。C 表示每个中心的特征维度。M 的大小为，其中 K 表示每种类别的中心数目，和表示源域数据真实的总类别数和目标域数据聚类得到的总类别数。初始阶段，同一个类别的 K 个中心特征都被初始化为了相同的值，即该类别下所有样本的平均特征。

在优化阶段，MCM 会持续地吸收最新的来自同一个类别的 query 特征并进行迭代更新，以检测并表征同一个簇内可能存在的多个子类。具体来说，在每次网络迭代过程中，每个 batch 数据由 PK 采样生成而来，即包含来自 P 种不同类别的样本，且每个类别采样 K 个样本。

这里有一个技巧，我们将 PK 采样中的 K 简单的设置成了与 MCM 种每种类别的中心数目相等的数值，这使得 MCM 中来自同一类别的 K 个中心可以在每次迭代中同时被更新。对 batch 内来自同一类别的 K 个样本，我们试图寻找其与 MCM 中 K 个中心的一种最优匹配方式，使得整体的相似度之和最高。

其中表示一种匹配方式，表示 batch 内第 i 个 query，表示 MCM 中匹配上第 i 个 query 的中心。我们使用匈牙利算法来高效地计算这种匹配关系。匹配完毕后，我们通过滑动平均的方式来更新 MCM 中存储的中心：

正负样本挑选策略

对 batch 内的每个 query 样本，MCM 中提供了 K 个正样本以及个负样本，如何挑选合适的正负样本对模型的优化至关重要。

正样本方面，由于聚类可能有不纯的问题，对一个 query 而言，MCM 中存储的相应的 K 个中心可能存在一部分实际上来自于不同 ID。为了生成可靠的正样本，我们首先根据与 query 的相似度，对 MCM 中的 K 个中心进行了排序。

一种自然的想法是挑选最相似的中心作为正样本，然而最相似的中心可能在之前的更新过程中吸纳了该 query 的特征，挑选该样本作为正样本不利于网络学习类别内样本的多样性。此外，最不相似的样本有较大可能是一个离群点，即来源于不同的 ID。因此，我们选择排序居中的样本作为候选的正样本（称为 moderate positive sample）。

负样本方面，一种最简单的想法是将 MCM 中所有来自不同类别的样本都作为负样本。然而，在聚类过程中可能产生分裂，即实际属于同一个类别的样本被划分到不同的簇中，在这种情况下，上述负样本策略会产生 false negative 样本，推远这些样本与 query 会干扰模型的优化过程。为了缓解这个问题，我们使用每个簇 K 个中心的平均特征来表示该簇，从而产生个候选负样本。

域内对比学习（DSCL）

以往的工作 SPCL 采用了一种统一的对比学习策略（Unified Contrastive Learning, 简称 UCL），其旨在拉近来自同一类别的样本，并推远所有来自不同类别的样本，而不考虑样本是否来自同一个域。UCL 可以表示成以下形式：