Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

用于可见光和红外跨通道人员再识别的双自适应对准和分割网络(下)

摘要回顾:

可见光和红外行人重识别(VI-ReID)描述了匹配可见光和红外摄像头捕获到的行人图像的任务,这在夜间监控应用中是一个特殊的挑战。现有的跨模态识别研究主要集中在学习行人全局和共享特征表示,以处理跨模态差异。然而,尤其是当遇到行人检测框不准确而导致的人类外观差异或姿势错位时,行人图像的全局特征并不能有效解决未对齐的图像对问题。为了缓解这些问题,本文提出一种端到端的双重对齐和分割网络,以同时学习行人的全局特征和局部模态不变的特征。首先,我们使用两个自适应空间变换模块来对齐可见光和红外图像的输入。随后,水平分割对齐后的图像,并提取每个局部块的特征。最后,我们将这些局部特征与全局特征融合。为了缓解异构模态之间的差异,学习异构模态的共同特征表示,我们将异构模态的特征映射到同一嵌入空间。最后,结合ID损失和加权正则化TriHard损失来提高识别精度。在两个跨模态数据集regdb和sysu-mm01上的大量实验结果表明,该方法优于其他现有的最新方法。

提出的DAPN框架图,该框架包括三个部分:特征提取模块,特征嵌入模块和损失函数模块。所有路径中的主干网络均为ResNet50.

3.3 Feature embedding module

跨模态VI-ReID是一个匹配问题。为了缓解异构模态之间的差异,学习异构模态的共同特征表示,我们需要将异构模态的特征映射到相同的特征嵌入空间。因此,可以有效地减小红外图像和可见光图像之间的模态差异。首先,我们将两种模式的特征连接起来,然后通过FC层将它们映射到相同的嵌入空间。请注意,在特征提取过程中,我们不共享权重。我们使用φV(X)和φI(Y)来表示从可见光和红外基本网络中提取的特征,如图4所示。此外,φ'v(x')和φ'I(y')用于表示通过可见光和红外对齐和分割提取的特征。如图10所示,高级特征具有更强的语义信息。他们的注意力主要集中在行人身上,反应强烈。对于可见图像的路径,我们选择加权融合方法:

对于红外图像路径,我们还选择加权融合方法:   

之后,我们将通过实验证明这两部分加权融合特征的互补性和合理性。在特征嵌入空间中我们使用

分别为可见光和红外图像的FC层激活函数,其参数为A和B。

3.4 Loss function module

        在模型学习阶段,我们结合了两个目标函数:身份损失(Lid)和加权正则化TriHard损失(Lwrt)。身份损失函数用于确定行人的身份。加权正则化三硬损失用于约束样本对之间的距离。对于阳性样本对,距离和权重较大;对于负样本对,距离较大,权重较小。

Identity loss:特征嵌入模块的输出通过FC层,我们选择交叉熵损失进行多类身份训练。我们的批量抽样方法如下。对于每一批训练,我们从包含N个身份的数据集中随机选择P个身份,然后为每个身份随机选择K个红外行人图像和K个可见行人图像。最后,我们得到了2×pk的训练图像。为了方便起见,我们使用fA(·)来表示特征嵌入FC层函数,其张量输出维数为512维。因为训练数据集只包含N个身份,所以我们添加了一个FC层。全连接层的输入是512维张量,输出是N维张量。该FC层的输出函数用FC(fA(·))表示。对于每一批可见光图像,我们使用xij来表示第i个身份的第j个图像。令^pi,jx和^pi,jy分别代表输入的可见光和红外行人身份的预测概率。xij是第i身份的第j个可见光图像,Yij是第i身份的第j个红外图像。给定标签pi,jx和pi,jy是Xij和Yij的真实标签,pi,jx(i)=1,对于任意的k≠i,有pi,jx(k)=0,pi,jy(i)=1,pi,jy(k)=0. batch的ID损失定义如下:

Weighted regularization TriHard loss: Lid的缺点是只考虑每个输入样本的身份,并且在每个训练批中不强调红外图像和可见光图像是否属于同一身份。由于现有的TriHard损失只考虑了极端样本的信息,局部梯度非常大,导致网络崩溃。为了缓解上述问题的影响,我们设计了一种批量交叉模态加权正则化TriHard损失(Lc−wrt)来优化特征嵌入。对于正样本对,距离和重量都较大 ;对于负样本对,距离较大,权重较小。Lc−wrt继承了TriHard损失的优点,不需要引入额外的margin参数,使其更灵活、适应性更强。假设xia代表训练批中的每个可见光anchor样本。加权正则化TriHard损失函数Lc−wrt(X,Y)的计算公式为

 其中p是正样本集,n是负样本集。此外,wpi代表正样本距离权重,wni代表负样本距离权重。Yia代表训练批中每个可见光的anchor样本。加权正则化TriHard损失函数Lc−wrt(Y,X)计算公式如下:  

整体交叉模态加权正则化三硬损失为

我们以端到端的方式培训整个网络。我们的总损失函数(Ltotal)定义为

其中λ是控制损失项相对重要性的超参数。

4 Experimental setup

4.1 Datasets

我们利用两个公共可见红外(热)跨模态数据集评估了我们提出的模型:RegDB[18]和SYSU-MM01[17]。它们是可见光和红外(热)跨模态ReID的唯一两个常见数据集。

RegDB:该数据集包含412张行人图像,这些图像是使用双摄像头系统(可见光摄像头和热摄像头)采集的。每个行人都有10张可见光和红外图像。我们的评估方法是将RegDB数据集随机分成训练集和测试集。文献[19]中描述了详细的评估方案。在测试过程中,使用红外(可见)图像作为查询集,使用可见(红外)图像作为库集。

SYSU-MM01:该数据集包含使用六个摄像头收集的491个身份,包括两个红外摄像头(即摄像头3和6)和四个可见光谱摄像头(即摄像头1、2、4和5)。此次收购包括室内和室外环境。数据集分为训练集和测试集。该训练集有395个身份,包含22258张RGB图像和11909张红外图像;测试集有96个身份和3803张红外图像。我们的评估协议采用单次全搜索模式,详情见[17]。SYSU-MM01数据集中存在多个未对齐的行人(例如背景过多、部分遮挡或缺失部分的图像),这对ReID算法构成了重大挑战。

4.2 Evaluation metrics

我们按照现有ReID任务的标准评估协议进行实验。匹配精度(Rank-k)和平均精度(mAP)是两个常用的评估标准。在实验中,我们重复评估10次,并计算平均值性能。请注意,我们为每个迭代随机划分了探测集和库集。如图8所示,实验结果证实了我们的方法是稳定的。 

图8使用随机分割的图库和探针组重复评估10次 计算了平均准确度

4.3 Implementation details

数据预处理:对于训练,我们必须将输入图像调整为288×144,并用10填充。然而,对于测试,我们只需要将输入图像调整为288×144。随后,图像被随机水平翻转,概率为0.5,并被裁剪为288×144。此外,我们在训练过程中采用了随机擦除数据增强算法;这可以模拟不同程度的遮挡,减少过度拟合的风险。随机删除采样图像,概率为0.5。

批量采样方法:在实验中,我们使用了双流结构来提取特征,并开发了相应的批量采样策略。在训练过程中,对于每个迭代批次,我们从包含N个身份的数据集中随机选择P个身份,然后为每个身份随机选择K个红外行人图像和K个可见行人图像。最后,我们得到了2×pk的训练图像。在实验中,我们把P和K都设为3。因此,输入批量大小包含18个图像:9个可见图像和9个红外图像。 

实验设置:我们使用NVIDIA GeForce 1080Ti图形卡和PyTorch框架来实现我们的算法。用随机梯度下降优化器对模型进行了120个阶段的训练。动量优化器用于优化,动量设置为0.9。动量衰减因子设置为5e-4。初始学习率为1e-4,辍学率为0.5。在我们的实验中,使用了线性热身学习率优化方法:在前10个阶段,学习率从0逐渐增加到初始学习率(1e-4)。经过10个阶段的训练,每30个阶段的学习率下降0.1倍。当我们回归参数θ时,在早期的训练迭代中,它很容易落入局部最小值。因此,为了稳定参数θ,我们将网格网络中两个FC层的学习率设置为0.0001。此外,我们将所有变换参数θ设置为0,除了θ11和θ22设置为0.85,以确保STN在早期迭代中聚焦于输入图像的中心部分(因此,所提出的方法可以有效地减少所需时间,并加强对行人身体区域的关注)。对于特征嵌入,输入维度为2048,输出维度设置为512。对于STN网络,两个FC层的输出尺寸为3 2 和6。将(16)中的parameterλ设为1。

4.4 Experiment analysis

我们对可见光和红外图像进行了空间变换,使网络学习能够自适应地进行行人定位,以减轻图像质量错位。通过融合全局和局部特征,我们的算法在一定程度上提高了鲁棒性。为了缓解异构模型之间的差异,学习它们的共同特征表示,我们必须将异构模型的特征映射到相同的特征嵌入空间。因此,可以有效地减少红外图像和可见光图像之间的跨模态差异。 

4.4.1 Feature fusion strategy

图9数据集RegDB和SYSU-MM01方法A中不同γ的DAPN性能

4.4.2 Ablation study

我们的DAPN如图4所示。为了简化消融研究中的表达式,我们使用Lid表示识别损失、Lwrtis加权正则化三硬损失、RE表示随机擦除、PA表示PAM、ST表示STN,HDB表示将全局特征水平分割为三个固定块。对于消融研究,我们一次添加一种成分。表2和表3分别列出了RegDB和SYSU-MM01数据集上的秩-1、5、10和mAP。

4.5 Visualization of the experimental results

为了验证我们提出的方法的实验效果,如图10a,我们从SYSU-MM01数据集中随机选择四种类型的未对齐可见行人图像,将其输入网络,并通过视觉注意图观察模型输出的实际效果。即,(1)遮挡,(2)缺失部分,(3)过度背景,(4)尺度不一致。如图10b所示,我们可以观察到,在对齐后,图像被近似地转换为相对标准的行人图像,从而使我们的网络将更多注意力集中在行人区域。虽然我们的变换方法不能有效地解决行人图像的定位问题,但它可以在一定程度上纠正图像的尺度和位置偏差。

对于背景过多的情况,通过缩放消除背景。对于部分遮挡的情况,我们将图像缩放到适当的大小,并用零填充空白区域以补充。根据实验结果,自适应对齐网络可以识别图像中的重要区域,并且变换也有一定的局限性图像上的旋转和缩放效果。我们使用双重自适应空间变换对齐方法来有效地缓解行人图像之间的语义错位,并对对齐的图像进行水平分割,使网络能够有效地关注行人的局部信息。最后,我们融合了全局和局部特征,以提高行人里德技术的鲁棒性和有效性。如图10所示,我们可以观察到DAPN的注意力可以集中在行人的身体上。虽然我们的自适应对齐方法不能很好地解决行人图像的对齐问题,但它可以或多或少地纠正图像的比例和位置偏差。因此,所提出的方法最终提高了VI-ReID的性能。  

图10 DAPN对行人的注意力图。以SYSU-MM01数据集中的可见行人图像为例,我们展示了我们提出的DAPN方法在行人错位情况下的可视化效果。(1) 闭塞;(2) 缺失的部分;(3) 背景过多;(4) 尺度不一致。我们通过Grad CAM实现了这种可视化。a原始未对齐的可见光行人图像  b DAPN对行人的注意力图

4.6 Comparison with state-of-the-art methods

在本小节中,我们描述了我们的DAPN方法与15种现有方法的比较。RegDB和SYSU-MM01的比较分别见表4a和表4b。对于性能度量,我们使用rankk和mAP来说明我们方法的优越性。具体来说,在SYSU-MM01数据集上,DAPN的性能大大优于现有的最先进的方法。竞争方法包括特征学习框架(零填充、单流、双流[17]和TONE[19])、排名损失(BCTR[20]、BDTR[20])、度量学习(HCML[19]、D-HSME[67])、减少分布差异(cmGAN[22])和图像生成(D2RL[21])。我们在RegDB上报告秩1=52.14%,mAP=49.92%,在SYSU-MM01上报告秩1=52.99%,mAP=60.73% 此外,与AlignGAN[23]、JSIA ReID[71]和MACE[72]相比,该方法取得了显著的改进。

在测试实验中,我们使用了最具挑战性的单样本全搜索方法,详见[17]。我们随机选取了五幅红外行人图像,检索结果如图11所示。我们使用余弦相似性分数来计算图像对之间的相似性。根据相似性评分,我们从左到右输出10幅可见行人图像,评分从高到低。红色边框表示不正确的匹配,绿色边框表示正确的匹配。从图中可以看出,与查询具有相同身份的可见光行人图像可以在一定程度上正确检索。

图11 SYSU-MM01数据集测试集检索结果样本。这里,我们使用红外图像作为查询,可见图像位于图像库中。红色边框表示错误的匹配。绿色边框表示正确的匹配

5 Conclusions

在这项研究中,我们研究了跨模态VI-ReID问题,这对监控中的许多实际应用来说是一个挑战。具体来说,DPAN框架就是为了解决这个问题而提出的。对于可见光和红外模态,我们引入了空间变换网络,另外,它直接从输入数据中学习行人对齐而无需额外的数据注释。为了区分相似的个体,我们将变换后的可见光(红外)图像剪裁成三个水平块,然后提取三个局部特征,最后将他们合并到全局特征中,以进一步增强特征的识别能力。变换后的图像对齐可以有效缓解由原始图像错位引起的模态内差异,有效增强网络对行人的关注度。同时,我们将可见光和红外图像的特征映射到相同的嵌入空间,可以有效缓解交叉模态差异。此外,为了学习多模态可共享特征表示和相似度度量,引入了一种改进的双流CNN网络,该网络融合了身份损失和加权正则化TriHard损失。实验证明了该方法的有效性。在未来的工作中,为了消除背景信息的干扰,以及更细粒度的行人特征,我们将探索使用语义分割来获取局部特征,从而进一步提到识别能力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值