[行人重识别论文]Generalizable Person Re-Identification via Self-Supervised Batch Norm Test-Time Adaption

本文探讨了行人再识别中的泛化挑战,提出BNTA方法,通过自监督策略在测试时间自适应更新BN参数,解决训练域偏移问题,实验证明了其在多个数据集上的优越性能。
摘要由CSDN通过智能技术生成

摘要:在本文中,我们研究了行人再识别( re-id )的泛化问题,其主要挑战是未知域上的分布偏移。批归一化( BN )作为正则化分布的重要工具,在现有方法中得到了广泛的应用。然而,他们忽略了BN严重偏向于训练域,如果直接泛化而不进行更新,必然会导致性能下降。为了解决这个问题,我们提出了批范数测试时间自适应( Batch Norm Test-time Adaption,BNTA ),这是一种新的重识别框架,它应用自监督策略来自适应地更新BN参数。具体来说,BNTA在推理之前快速探索未标记目标数据中的领域感知信息,并据此调整BN归一化后的特征分布以适应目标领域。这是由两个设计的自监督辅助任务来完成的,即零件定位和零件最近邻匹配,它们分别帮助模型挖掘关于身体零件结构和身份的领域感知信息。为了证明本文方法的有效性,我们在三个真实数据集上进行了大量的实验,并证实了本文方法的优越性能。

改进:BN批归一化严重偏向于训练,提出批范数测试时间自适应

Figure 1:说明我们的主要观点。( 1 )当BN层冻结时,BN输出的经验分布从源域向目标域发生了较大偏移,但当BN层更新时,这种偏移得到了缓解。( 2 )我们的模型在训练过程中通过FSL和SSL头进行联合优化。BN层通过SSL更新,其他层在测试时间适应过程中保持冻结。

第三种方法表明,BN由于学习偏向源领域的知识,降低了模型的泛化能力。我们进一步在图1中显式地考察BN输出的分布与区域之间的相关性。( 1 ) .红色和绿色线条分别表示同一(冻结) BN层在源域和目标域输出的经验类高斯分布。它们表现出很大的分布偏移,例如,从红线到绿线,方差明显增大,这表明目标区域上的BN输出是不均匀的。原因在于BN参数在正则化分布时严重偏向于训练数据,而目标数据来自于截然不同的分布。这导致两个后果:

1 ) (例如,卷积层)以下各层的输入分布与源域的输入分布存在偏差,影响了它们处理信息的准确性。

2 )甚至对顶层的偏移进行了累加,从而削弱了输出特征的判别性。然而,现有的方法并不能很好地处理这个问题,它们直接将训练好的BN层应用于一个看不见的分布,而不需要任何更新。

在本文中,我们提出了一种新的批量范数测试时间自适应( Batch Norm Test-time Adaption,BNTA )重识别框架,通过自我监督来更新BN层。具体来说,BNTA快速挖掘未标记目标样本中的领域感知信息,并据此更新BN参数(包括统计量和仿射参数),以调整目标域上的归一化特征分布。受先前验证身体结构和身份信息对重识别(权小锋等2019)的重要性的启发,我们设计了两个SSL辅助任务用于重识别命名部件定位和部件最近邻匹配。它们通过预测位置和利用最近邻节点之间的相似性,帮助模型挖掘与身体部位结构和身份线索有关的目标分布。此外,基于两个SSL任务,我们提出了一个训练和测试时间自适应的方案。如图1所示。( 2 ),我们的模型通过FSL (强监督learning )和SSL在标记的源数据上进行联合训练,而SSL进一步允许在测试时间适应期间更新BN层以吸收目标分布。

贡献总结如下:

  1. 为了缓解将BN层转移到一个看不见的域时的分布偏移,我们提出了一个用于快速更新测试时间BN参数的BNTA re - id框架
  2. 针对BNTA设计了两个简单有效的SSL辅助任务,从未标注的目标数据中探索身体部位的结构和身份信息。
  3. 大量的实验证明了我们的模型在三个re - id数据集上的最新性能,同时也促进了对BN参数更新如何以及为什么会提高re - id泛化能力的理解。

Figure 2: Bnta Re - Id框架示意图。一个FSL头G和两个辅助SSL头P,M分别基于全局和局部特征在标记的源域上训练整个模型。在测试时间自适应过程中,BN层使用SSL更新自适应样本集,该样本集包括从N个目标样本中选择的具有部分最近邻的K个图像对。更新后的模型提取全局特征用于最终的推断。

Batch Normalization:

由于BN ( Ioffe和塞盖迪2015)最初是为了稳定神经响应和训练过程而设计的,因此在深度神经网络中得到了广泛的应用。然而,BN层倾向于将训练数据归一化为一些特定的类高斯分布,如果目标数据与这些类高斯分布严重偏离,则模型的泛化能力很差。BN出现之前,我们的归一化操作一般都在数据输入层,对输入的数据进行求均值以及求方差做归一化,但是BN的出现打破了这一个规定,我们可以在网络中任意一层进行归一化处理,主要分为四部分:1.求每一个训练批次数据的均值 2.求每一个训练批次数据的方差 3. 3.使用求得的均值和方差对该批次的训练数据做归一化,获得(01)正态分布。其中ε是为了避免除数为0时所使用的微小正数。 4.尺度变换和偏移:前几步会使得数据强制成正态分布,但是如果数据本身就不是对称的,未必可以代表原本数据分本,所以要加入尺度变化和偏移。

本论文与其他BN方法不同点:

然而,它们的可学习仿射参数在未标记的目标域上是不可更新的。与它们不同的是,我们提出的SSL策略可以探索域感知信息,以自适应地将BN参数(统计参数和仿射参数)定位到目标分布。

FSL: Global Identity Learning:

FSL头部G旨在从源标签数据中学习具有判别性的身份特征用于重识别。许多包含BN层的re - id模型可以作为我们的特征提取器E的骨干。在这里,我们选择了具有竞争力的泛化能力和相对简洁的结构的DualNorm。对于给定的输入图像xi∈D,我们将提取的特征图表示为E ( xi )∈RC × H × W,其中C为通道数,H和W分别为高度和宽度。以下对身份学习的操作表示为:

其中fi是经过C维全局平均池化后的身份特征向量,FCG ( · )是一个全连接层,后面是一个softmax函数,yi∈11 × M是二进制身份标签。身份损失Lid是一种交叉熵损失,用于通过身份分类使身份特征具有判别性。

式中:d( · , ·)为欧氏距离函数;{ f * vi,f * vp + i,f * vp-i }为三元组训练样本集,其中f * vi为锚点,f * vp + i和f * vp - i分别与f * vi具有相同和不同的身份标签;φ tri为间隔参数,P为一个训练批次中vi的三元组个数。这种损失可以拉近类内特征距离,推开类间特征距离。

SSL: Part Positioning:

身体结构信息在重识别中起着重要作用,但容易被忽视。此外,人物图像总是具有明确的结构先验,即在一个人物图像上从上到下总是从头到脚,甚至在不同的域上捕获。受这两个发现的启发,我们提出了一个名为部位定位的SSL辅助头部P,通过预测身体部位的位置来探索图像中的身体结构。具体来说,

其中{ f h i } H h = 1是将特征图均匀划分并平均池化得到的局部特征向量,在xi上从上到下对应H个垂直身体部位。它们一起送入一个全连接层P来预测垂直位置索引( 1 , 2 , ... ,或H),以及给定的二进制标签yhi∈11 × H,由定位损失Lpos监督。当将我们的模型应用到一个新的领域时,Lpos可以通过感知和对齐图像中的结构信息来促进模型减少来自源域的特征分布偏移。

SSL: Part Nearest Neighbor Matching:

由于re - id依赖身份特征进行图像检索,除了身体结构外,形象间性身份相似度对特征分布也有显著影响。因此,我们设计了另一个SSL头M,即部分最近邻匹配,基于局部相似性来挖掘目标域上的身份分布。利用局部相似性而不是全局相似性的动机是局部相似性对于未标记的目标图像具有更高的可靠性和潜力。例如,当两幅图像包含看似相同的黑色衬衫时,即使具有不同的身份,我们仍然可以利用它们来模拟局部正对,以探索潜在的形象间性身份相似性。

Training Version:

在训练过程中,需要初始化局部特征使其具有判别性,在测试时间适应过程中,可用来代替全局特征来调节身份分布。本地身份学习的过程被表述为

式中:Convh M ( · )为卷积层,核大小为1 × 1,将f h i的维度从C变换到Cl。与式( 1 )类似。( 2 )在形式上,Ltmat是部分最近邻匹配损失的训练版本,并允许我们的模型提取具有判别力的局部特征。

Test-Time Adaption Version:

为了从未标记的目标数据中探索形象间性身份的相似性,我们利用目标样本中最相似的部分作为正样本来调整身份分布。自适应样本集记为T = { ( tn k , tn + k) } K k = 1,n∈{ h } H h = 1,其中( tn k , tn + k)为第n个身体部位用于测试时间自适应的一对图像。局部近邻匹配损失Ltta mat的测试时间自适应版本定义为

其中d( fnk , fn + k)和d( fnk , fn - k)分别为小批量数据中局部特征f h k与其正样本f n + k和最难负样本f n - k之间的欧氏距离,φ为间隔参数.与最难的三元组损失(赫尔曼斯,比耶,莱比2017)类似,该损失将相似度高的局部特征拉得更近,而将相似度低的局部特征推得更远。通过借助形象间性局部相似性,Ltta mat驱动对身份感知的目标分布进行微调。

Training:

在训练阶段,我们的模型的所有参数都由一个FSL损失和两个SSL损失端到端的优化。训练损失Lt和优化方案制定为:

式中:*∈{ E,G,P,M },θ all *为*的所有参数,η t为学习率,λ 1和λ 2为权重因子。联合学习通过将三个特征分布相互关联,使得通过调整领域感知结构和身份信息来调整目标领域的全局特征分布成为可能。

Batch Norm Test-Time Adaption:

BN表示为:

式中:xb为BN层b维上的输入;μ和σ 2为随机变量xb的经验均值和方差,由一批训练样本估计得到;γ和η为用于线性变换的可学习仿射参数。我们在4.3节的实验表明,这4个参数都不同程度地偏向于训练数据,导致域间的特征分布偏移较大。为此,在测试时间自适应过程中,使用两个SSL损失来更新BN参数,使其适应目标域。我们将测试时间自适应损失Ltta和优化方案表示为

式中:*∈{ E,P,M },θ bn *表示BN参数,包括统计量μ、σ 2和仿射参数γ、β,η tta为学习率,λ 3为权重因子。通过微调参数,BN层重新规则化特征分布,并将其拉向更稳定的分布,以便后续层更好地处理,从而提高泛化性能。

结果:

总结:在本文中,我们提出了一个可泛化重识别的BNTA框架,该框架在目标域上自适应地更新测试时刻的BN层,以纠正BN携带的训练偏差。设计了两个基于部分的SSL辅助任务,从未标记的目标样本中探索图像中包含结构和身份信息的目标分布。大量的实验表明了更新BN层对于提高泛化能力的有效性和潜力。在推理之前,我们的方法只需要花费1 f s的时间和数百张图库图像进行测试时间自适应,就可以在3个re - id数据集上取得最先进的结果。在未来的工作中,我们将研究如何联合更新BN和其他层,以进一步提高泛化能力

本文章内容来自:Generalizable Person Re-Identification via Self-Supervised Batch Norm Test-Time Adaption

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值