此篇论文已被AAAI 2022 收录,论文链接请见“阅读原文”。
行人重识别(Person Re-ID)在视频监控、安防及刑侦等领域中都有着巨大的应用前景及价值,其目标是根据一个人物在某个摄像头下的图片(通常称为 query)找到同一个人物在其他摄像头图像底库(通常称为 gallery)下出现的图片。
真实部署环境下,由于摄像头、不同城市场景、不同季节等诸多外界因素的影响,图像成像质量(光照、清晰度等)、人物的着装、所处的背景环境都会有着巨大的差异,即存在域差异(domain gap)。域差异的存在,导致在训练集上训练好的模型难以适应真实部署环境,进而导致性能的衰退。一方面,训练集难以覆盖 Open world 的无限应用场景,另一方面,通才也难以超越专家。因此学术界和工业界不少研究工作者都致力于提升模型的域适应能力。
本文介绍了我们发表在 AAAI 2022 中的一篇关于行人重识别域适应的工作,本文提出了一种新颖的多中心表征网络,有效地提升了 ReID 模型的域适应能力,在多个常见的 ReID 域适应数据集上都取得了领先结果。
域适应行人重识别
域适应行人重识别的目标是将从源域(source domain)学习到的知识迁移到目标域(targetdomain),从而提升 Re-ID 模型在真实部署环境下的性能表现。基于伪标签聚类的方法是一种常见的域适应方法范式,其通常包括两个步骤:
(1)首先在目标域上通过聚类算法得到图像的伪标签(即 Person ID)
(2)使用同一个簇内的样本平均特征或使用可学习的参数作为该 ID 的特征表示,并在目标域上进行 fine-tune。
这种方案假定了聚类的可靠性,并使用了单中心(Uni-Centroid)特征来表征簇内所有图像。然而实际中由于聚类结果并不可能是完美的,同一个簇内可能包含来自不同 ID 的图像,即存在噪声。在这种情况下,使用单中心来表征整个簇内的图像是不合适的。
如下图 1(a)所示,在簇内存在多个 ID 时,使用簇内所有图像的平均特征来表征该簇是不合适的,得到的单中心表征对簇内地任意一种类别来说都不是一种良好的表示,距离类别真实的中心都存在较大的偏差。