Dual dadptive alignment and partitioning network for visible and infrared cross-modality person reid

用于可见光和红外跨模态人员再识别的双自适应对准和分割网络(上)

Applied Intelligence-sci3 四川大学

摘要:可见光和红外光行人重识别(VI-ReID)描述了匹配可见光和红外摄像头捕获到的行人图像的任务,这在夜间监控应用中是一个特殊的挑战。现有的跨模态识别研究主要集中在学习行人的全局和共享特征表示,以处理跨模态差异。然而,尤其是当遇到行人检测框不准确而导致的人类外观差异或姿势错位时,行人图像的全局特征并不能有效解决未对齐的图像对问题。为了缓解这些问题,本文提出一种端到端的双重对齐和分割网络,以同时学习行人的全局特征和局部模态不变的特征。首先,我们使用两个自适应空间变换模块来对齐可见光和红外图像的输入。随后,水平分割对齐后的图像,并提取每个局部块的特征。然后,我们将这些局部特征与全局特征融合为了缓解异构模态之间的差异,学习异构模态的共同特征表示,我们将异构模态的特征映射到同一嵌入空间。最后,结合ID损失和加权正则化三元组损失来提到识别精度。在两个跨模态数据集regdb和sysu-mm01上的大量实验结果表明,该方法优于其他现有的最新方法。

    许多摄像机安装在商场、学校、社区、街道、车站、十字路口和其他公共场所。这些监控摄像头不仅记录了城市各个角落的变化,还对目标区域进行了视频监控,有效保障了该地区的安全稳定。行人重新识别(ReID)旨在跨多个非重叠摄像头检索感兴趣的人员。识别特定行人对于违章判断、刑事调查和危险警告具有重要意义。研究和实际应用的重要性使person Reid成为计算机视觉和人工智能领域的热门话题。

高效的Reid算法应该可以减轻观看视频的痛苦过程,并加快调查和搜索的过程。大多数研究都集中在RGB-RGB(单模态)person Reid问题[7-10,10-13]上,可见光摄像头捕捉到了probe和gallery行人。然而,可见光摄像机可能无法捕捉各种照明下的外观信息,尤其是当照明条件不足时(例如,在夜间或黑暗环境中)。大多数罪犯在夜间犯罪。由于技术的发展,大多数新一代相机可以根据照明条件自动在可见光和红外模式之间切换。因此,有必要开发解决可见光和红外VI-ReID问题的方法。红外图像技术是一种非接触检测技术,它将不可见的热辐射转化为可见的热图像[14]。许多学者继续对红外图像进行分析,并取得了重大成果。  

图1四名行人在三种不同视角下的可见光和红外图像

图2 SYSU-MM01数据集中的几个具有挑战性的行人图像。a、 b,h:缺失部分;c、 d:闭塞;e、 f:尺度不一致;g、 h:背景过多

    与传统的person Reid不同,跨模态VIReID旨在以不同的光谱匹配可见光和红外相机拍摄的图像。在本研究中,我们研究了跨模态VI-ReID问题,其中红外(可见)行人图像用于在不同的摄像头设备上搜索可见(红外)行人图像。 如图1所示,裁剪后的行人图像通常由自动探测器(DPM[15],faster R-CNN[16])或跟踪器获得。然而,由于检测/跟踪结果的不完善,图像错位通常是不可避免的。图2显示了几个语义错位错误(例如部分遮挡、部分缺失或背景过多)。自过去几年以来,越来越多的研究人员开始研究VI-ReID问题,并提出了大量有效的VI-ReID方法[17–24],但很少有人涉及学习行人对齐。一些研究[25–27]试图通过减少异构数据的跨通道差异来提高行人匹配的准确性。 此外,一些方法[28,29]侧重于解决行人错位问题,以在一定程度上提高行人检索的准确性。在本研究中,我们对可见光和红外图像进行了空间变换[30],这样网络学习可以自适应地进行行人对齐,以缓解图像错位。

    除了上述困难外,由于姿势和视点的变化,行人的外观可能会发生显著变化,如图1所示。前面提到的实际问题可能会导致图像之间空间的语义错位:在这种情况下,两个匹配图像对应于相同空间位置的内容的语义不同,从而限制person-ReID的健壮性和有效性。因此,开发一个判别模型来同时处理VI-ReID的所有变化是很重要的。相关的跨模态匹配问题已在许多异构识别应用中得到广泛研究,如可见红外人脸识别[31]和人脸草图识别[32]。

    VI-ReID之前的一些研究主要集中在全局特征学习上:使用整个图像来学习获取用于图像检索的特征向量。虽然这些方法可以在一定程度上缓解全局特征的模态差异,但它们忽略了局部特征的大模型变化。然而,全局特征也忽略了图像中的一些细粒度信息(例如头发、鞋子和袋子),无法有效区分相似个体之间的差异。近年来,局部特征学习方法受到了越来越多的关注。与全局特征相比,局部特征能更有效地反映行人的局部差异,对姿态变化更具鲁棒性;因此,他们更具区别性。    

    常用的局部特征提取方法包括水平分割、网格分块、姿态信息和语义信息分割。水平分割是提取局部特征最常用的方法之一。 该方法的实现过程是首先提取行人图像的全局特征,然后将提取的全局特征在垂直方向上均匀划分为若干水平局部特征块。为了提取更细粒度的行人特征,使用基于网格的块方法[25,36–38]将(所有网格区域的)局部特征组合成一个特征集,然后设计合理的匹配策略来匹配两幅图像的局部特征集。关键点信息[39–43]主要用于解决行人姿势的错位问题。通常需要使用姿势估计模型(Alphapose[44],OpenPose)来估计每个关键点,然后根据之前定义的组件块规则,在使用网络并提取最终图像的集成特征块之后,将行人划分为头部、胸部、腿部等语义块。该方法基于分割信息[46–50],主要用于消除背景信息的干扰。通常,使用人体分割模型(Segnet[51],DeepLab[52])提取像素级语义标签,然后分离相应的行人语义块。最后,使用网络提取每个块的特征,并将其融合到最终的图像特征中。与基于姿态信息和分割信息的方法相比,水平分割方法不需要额外的模型来提取语义成分信息;因此,识别过程更有效。然而,缺点是当输入不对齐时,垂直水平分区方法将导致性能降低。为了解决行人图像的错位问题,我们引入空间变换网络对输入的行人图像进行自适应调整,然后将行人图像分块。图3显示了行人对齐前后的效果。这可以有效地缓解错位的影响,提高识别性能。

图3空间变换对齐前后的图像比较。前一行图像是未对齐的行人原始图像,下一行是通过变换对齐后的图像。行人定位操作完成后,可以将图像转换为近似的标准行人图像。对于背景过多的情况,通过缩放等消除背景,对于部分遮挡的情况,首先缩放到适当的大小,用零填充空白区域来补充,这有利于后面的特征匹配。a原始图像b变换对齐图像

        为了使网络学习能够提取出具有更强识别能力的行人特征,我们不仅在训练优化策略中使用了身份损失,还提出了一种自适应加权正则化三硬损失来度量正学习样本和负学习样本之间的距离。身份损失的目的是对特定领域的信息进行建模,以便在每个模式中区分不同的人。加权正则化的三硬损失弥补了两种异构模式之间的差距,增强了学习表示的模式不变性。对于正样本对,距离越大,权重值越大。对于负样本对,距离越大,权重值越小。受文献[28,53]的启发,我们在一个训练框架下整合了行人对齐和划分。 我们研究的贡献可以总结如下。

    我们提出了一种新的端到端多路径网络,它结合了双自适应对齐和分割来解决跨模态变化。此外,我们在每个分支中使用空间注意网络来增强局部空间像素特征的显著性。

    我们提出了一种自适应加权正则化TriHard损失。对于正样本对,较大的距离意味着较大的权重值。对于负样本对,较大的距离意味着较小的权重值。

    在两个公共跨模态ReID数据集上的实验结果表明,与其他先进方法相比,该框架显著提高了精度。此外,我们还进行了一项消融研究,以证明所提出的方法在不同目标成分下的有效性。 

3 Materials and methods

3.1 Proposed method

在这项研究中,我们提出了一种端到端的多路径DAPN用于VI-ReID任务。该框架包括三个部分:(1)特征提取模块,(2)特征嵌入模块,(3)损失函数模块,如图4所示。所有路径的骨干网络结构都是一个深度残差网络。由于缺乏可用数据,为了加快训练过程的收敛速度,我们使用在ImageNet上预训练的模型初始化我们的网络,从而提高训练过程的收敛速度。为了加强对局部特征的注意,我们在每条路径上应用了位置注意模块(PAM)。

图4为VI ReID提出的DAPN框架。该框架包括三个部分:(1)特征提取模块,(2)特征嵌入模块和(3)损失函数模块。所有路径的主干网结构均为ResNet50.

3.2 Feature extraction module

    我们引入DAPN来提取可见光和红外图像的特征信息。对于可见光和红外跨模态ReID,相似性在于行人轮廓和纹理的非颜色信息,而显著差异在于成像光谱。因此,我们设计了一个暹罗网络模型来提取红外和可见光行人图像的视觉特征。如图4所示,我们使用两个结构相同的网络来提取可见光和红外图像的特征表示;然而,这些网络并不共享权重。特征提取模块包含两个主要网络来处理可见光和红外数据 (1)基本网络和(2)对齐和分割网络。接下来,我们将详细描述这些网络。

可见光和红外基础网络:可见光(红外)基础分支网络采用两个相同的子网络,并且权重不共享。送入可见光和红外基础网络的图像是大小为288×144(分别为高度和宽度)的三通道图像。我们假设X(Y)是可见光(红外)基础网络的输入图像。φ(·)表示基本网络特征提取器。基本网络提取的特征可以表示为φV(X)(φI(Y))。 

对准和分割网络:可见光(红外)对准和分割模块由空间变换模块和分割块模块组成,如图4所示。我们将变换图像的可见(红外)图像定义为X'(Y'),由STN输出获得。φv0(x')  (φI0(y'))表示由变换后的可见光(红外)对齐和分割网络提取的图像的全局特征。此外,为了了解更详细和更具鉴别力的特征,我们将变换后的图像水平分割为三个大小相同的固定块。如图5所示,顶部像素的高度范围为1∼96,中间像素的高度范围为97∼192,底部像素的高度范围为193∼288,三个块的宽度为244像素。我们将这三个块分别复制到我们新定义的三幅图像中,大小为288×144,所有像素都填充为0,这三个块替换了新图像中的相应位置。我们提取这三幅新图像的图像特征,它们表示为φV1(x')、φV2(x')和φV3(x')、类似地,我们获得了红外特征φI1(Y')φI2(y')和φI3(y')。最后,我们通过加权添加可见光(红外)对齐和分割特征,融合可见光(红外)变换图像的全局和三个局部块特征,如下所示。

图5对齐和分割网络。它包含四个子网络:一个全局特征提取网络和三个固定块特征提取网络,其中每个子分支包含一个位置注意力模块。a可见光变换图像特征提取网络 b红外变换图像特征提取网络

                                                 图6.空间转换网络结构

STN变换网络由一个仿射变换回归网络(ATRN)和一个双线性采样器组成,如图6所示。ATRN由网格网络和回归器组成。网格网络包含一个平均池化层和两个FC层。网格网络的输入数据来自可见光(红外)基础支路。由于基本分支的主干结构是ResNet50,我们实际上取出了数据的conv 5−x层并将其输入网格网络。θ是一个6维ATRN参数,用于引导STN对齐行人,如式(3)所示。θ的大小可能因参数化的变换类型而异。为了便于理解,假设θ是二维仿射变换矩阵。在这种仿射变换的情况下,逐点变换是

其中(xti,yti)是输出特征图上的目标坐标,(xsi,ysi)是原始输入图像上的源坐标。参数θ11、θ12、θ21、和θ22控制scale变化和旋转变化,而θ13和θ23控制偏移。因此,行人错位可以得到有效缓解。在这项工作中,我们直接对原始图像进行行人定位。双线性采样器采集的图像是原始可见光图像X(红外图像Y)。因为仿射变换矩阵Aθ包含连续但无穷小的数,并且目标坐标xti,yti)是离散的,所以源坐标xsi,ysi)是连续的。我们使用双线性采样器来补偿变换后丢失的像素。

简单来说,“仿射变换”就是:“线性变换”+“平移”。来自 <如何通俗地讲解「仿射变换」这个概念? - 知乎>

    我们用零填充原始范围之外的像素。因此,我们得到了一个变换映射函数,它将原始图像的输出映射到变换后的图像。转换映射函数可以编写如下:

u∈[1…,H],v∈[1…W],i∈[1…hw],Xmn是对应于原始图像坐标(m,n)的像素值。X'uv是对应于仿射变换图像坐标(u,v)的像素值。xis是原始输入图像上的源坐标

图7.位置注意模块的结构。(这里其实就是non-local注意力)

可以参考这个博客 一文读懂CV中的注意力机制_腾讯新闻

PAM:局部信息是最具辨别力的,这是理解图像内容的关键。在本研究中,我们使用了PAM,它可以自适应地注意到局部特征及其全局依赖性。PAM的结构如图7. 首先,给出一个原始的特征图∈RC×H×W,我们将A输入三个卷积层,得到三个特征映射B、C、和D。接下来,我们将它们reshape为C×N;N中的像素数是H×W。随后,我们将B的转置乘以C的矩阵,并使用softmax计算空间注意mapS。接下来,我们将矩阵S乘以矩阵D,并reshape为E。然后,我们对E和原始A进行元素求和运算。最后,我们得到新的特征图F,如下所示:

其中Sji表示模型在处理第j个区域时关注第i个位置的程度。两个位置之间的相关性越大,表明它们之间的特征表示越相似。α初始化为0,它可以学习分配更多权重。(5)意味着每个位置的结果特征F是所有位置特征和原始特征的加权和。简而言之,PAM通过加权和选择所有位置特征来聚合每个位置的特征。无论距离有多远,相似的特征都是相互关联的。 

未完,明天继续........

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值