[行人重识别论文]Camera Contrast Learning for Unsupervised Person Re-Identification

摘要:无监督行人重识别( Abstract-Unsupervised Person Re-identification,Re-ID )旨在从未标注的行人数据集中寻找最具信息的特征。最近的一些方法采用了相机感知的策略进行模型训练,从而取得了很有前途的结果。然而,这些方法同时处理所有相机的帧内ID差异,并且需要在每个相机下独立学习,增加了算法的复杂度。为了解决这个问题,本文提出了一个面向无监督行人重识别的相机对比度学习框架。我们的方法首先提出了一个基于时间的相机对比学习模块,以方便模型学习。在每次迭代中,我们遵循时间对比原则,选择一个相机质心作为每个聚类的代理。通过强制样本收敛到正代理,可以逐步降低特征和相机之间的相关性。此外,我们还设计了一个3维注意力模块,以进一步减少由背景变化引起的ID内差异。通过将每个特征图元素按空间通道顺序重新加权,我们的模块可以准确地从行人图像中的感兴趣区域中找到身份不变的语义线索,无论背景如何变化。在几个流行数据集上的实验结果表明,我们的工作在很大程度上超越了现有的无监督行人重识别方法。

Figur1: 说明了现有的摄像头感知的纯无监督Re - ID方法的通用框架,这些方法需要在每个摄像头下独立训练。

本文贡献:

  1. 我们设计了一个用于模型训练的TCCL组件。通过逐步提高特征对不同相机视图的适应性,我们的模块可以有效地减少不同相机之间的ID内方差。
  2. 我们构建了一个3DAM来精确地提取身份不变特征。通过在空间通道顺序上对特征图元素进行重新加权,我们的模块能够减少由不同背景引起的ID内差异
  3. 在多个大规模行人重识别数据集上的实验表明,我们提出的CCL方法可以显著提高纯无监督行人重识别的性能,并在很大程度上优于同类方法

Figure2:我们提出的CCL模型的框架。通过3DAM模块从CNN Backbone中提取未标记图像的特征,然后使用DBSCAN [ 22 ]进行聚类。根据聚类结果为数据集中的所有图像分配伪标签。最后,根据相机对比度代理记忆,采用基于时间的相机对比学习策略进行模型更新。

基于时间的相机对比学习:

为了减少ID内的差异并提高特征的判别能力,先前的方法,通常遵循相机感知的策略进行模型训练。虽然带来了性能的提升,但是需要在每个摄像头下独立学习,增加了算法的复杂度。为了解决这个问题,我们采用不同的相机质心,在不同的迭代次数下为同一簇设置相机对比度代理( CCP ),并设计了一个基于时间的相机对比学习( TCCL )组件用于模型训练。TCCL模块的详细信息如图3所示。

Figure3: 说明了我们基于时间的相机对比学习模块。遵循时间对比原则,在不同的迭代次数下,选择不同的相机质心为同一簇构建代理,更新CCPM。为了方便,我们只在图中呈现一个簇的学习过程

在每次迭代中,对于属于同一簇的所有样本,我们首先根据所涉及的相机视图计算相机质心,以捕获簇内的局部结构。然后,我们采用时间对比原则为每个簇选择一个相机质心作为代理,这就要求当前的选择与之前的选择尽可能不同。通过这种方式,我们的模型可以专注于导致当前迭代中大部分帧内ID方差的相机视图。最后,我们将所有的代理存储在一个相机对比代理存储器( CCPM )中,并由CCPM进行更新:

其中K [ j ]是簇j的代理的更新值,η∈[ 0、1 ]是更新率. Oj为第j类中相机质心的集合。Nj为第j类涉及的相机总数。值得注意的是,由于在开始时没有为每个聚类选择相机,我们用全局聚类中心初始化内存,这可以为模型学习提供稳定的起点。

基于CCPM中存储的代理,我们学习了一个基于时间的相机对比学习损失,以减少不同相机视图之间的ID内方差,定义为:

其中τ是温度因子,〈, 〉表示余弦相似度。这个损失使得每个样本靠近它的正CCP,而远离它的负CCP。在不同的迭代次数下,它可以减少由不同相机引起的帧内ID差异,从而使学习到的特征表示对不同的相机风格具有鲁棒性。

Figure4: 说明了( a )我们提出的3DAM的整体结构和( b )空间注意分支和( c )通道注意分支的细节。W Avg Pool '和' H Avg Pool '分别为1D垂直全局池化层和1D水平全局池化层,' C Avg Pool '为2D全局平均池化层。BN '表示BatchNorm层。Conv1d '和' Conv2d '分别指1D和2D常规层。

3-Dimensional Attention Module:

虽然我们的TCCL模块可以显著地减少不同相机之间的ID内差异,但它在解决由背景变化引起的ID内差异方面仍然很弱。因此,我们设计了一个三维注意力模块( 3-Dimensional Attention Module,3DAM ),它遵循空间通道顺序从三个方向二次加权每个特征图元素,从而挖掘身份不变特征。通过在f的常规块后添加3DAM,我们的模型能够准确地定位重要的语义信息,并消除背景变化的干扰。

如图4 ( a )所示,在我们的3DAM中,我们首先构建了一个空间注意力分支(对于高度和宽度尺寸)来定位感兴趣区域并过滤掉背景信息。然后,构建通道注意力分支,找出哪个通道包含重要的语义线索。具体地,在空间注意力分支(图4 ( b )) )中,对于输入特征图F∈RC × H × W,我们首先从高度和宽度两个维度计算注意力图来捕获相应的位置信息,分别记为Mh∈RC × H × 1和Mw∈RC × 1 × W。Mh或Mw中的每个元素表示F中对应列或行的局部特征对识别行人的重要性。然后,用Mh和Mw重新加权F,得到新的特征映射F′∈RC × H × W。之后,在通道注意力分支(图4 ( c )) )中,使用F′作为输入,得到通道维度的注意力图,用Mc∈RC × 1 × 1表示。同理,Mc中的每个元素表示F′中对应通道的语义信息的重要性。最后使用Mc to二次加权F′,得到输出特征图F″∈RC × H × W,该特征图包含了匹配人员的重要语义信息。

具体来说,我们的3DAM将输出特征图F″的大小与输入特征图F的大小保持一致,这意味着它可以很容易地插入到任何CNN网络中,而不会发生任何变化。正如图2所示,我们在CNN主干的每个常规块后直接添加我们的3DAM,以减少背景变化对多级特征的干扰。

效果图:

总结:

在本文中,我们提出了一种新的用于无监督行人重识别的相机对比学习框架。我们的方法首先设计了一个新颖的TCCL模块来减少不同相机之间的ID内方差。遵循时间对比原则,TCCL采用不同的相机质心为每个聚类建立代理,并利用它们作为收敛中心来学习与相机无关的特征。此外,我们使用3DAM来减少由背景变化引起的ID内差异。我们的3DAM使用了一个空间通道顺序来二次加权特征图的每个元素,它能够排除背景的干扰,并从人物图像中提取身份不变的特征。在五个流行的基准数据集上的实验结果证明了我们模型的优势。

由于未标记数据集中存在着丰富的未充分利用的时序信息,我们的模型仍有性能提升的空间。在未来,我们希望设计一个时间一致性约束来优化生成的伪标签,并进一步提升模型性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值