Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences

最新推荐文章于 2023-07-18 22:23:04 发布

JJxiao24

最新推荐文章于 2023-07-18 22:23:04 发布

阅读量407

点赞数 3

分类专栏：跨膜态行人重识别论文学习文章标签：深度学习

本文链接：https://blog.csdn.net/JJxiao520/article/details/129004853

版权

论文学习同时被 2 个专栏收录

30 篇文章 8 订阅

订阅专栏

跨膜态行人重识别

27 篇文章 15 订阅

订阅专栏

Learning by Aligning:Visible-Infrared Person Re-identification using Cross-Modal Correspondences（对齐学习:使用跨模态对应的可见光-红外行人重识别）

期刊合集：最近五年，包含顶刊，顶会，学报>>网址
文章来源：ICCV 2021

研究背景

论文分析

文章贡献点如下：
1、提出了一种新的VIreID特征学习框架，使用密集跨模态的对应，有效地缓解了多模态图像之间的差异，同时进一步增强了人物表征的辨别能力。

2、引入身份一致性和密集的三重损失来训练端到端网络，有助于使用跨模态对应提取有区别的人表示。

CMAlign网络框架

网络框架如下所示：
采用ResNet50作为骨干网，选用SGD优化器，预热策略。

在这里插入图片描述
网络采用双流的CNN网络，首先将IR、可见光图像进行提取出来，然后与CMAlign模块（只是再训练数据集使用，测试时不使用）进行对齐操作，它是为了在RGB和IR特征之间建立密集的跨模态对应关系，并使用相应的匹配概率将这些特征相互交换w.r.t。

三个术语：身份损失(LID)、身份一致性(LIC)和密集三联体(LDT)损失。
身份损失强制同一身份的人物图像具有相同的特征，同时为不同身份的人物图像提供不同的特征；
身份一致性和密集三联体项利用了匹配概率，促使来自同一身份的RGB和IR特征在 像素级上相互重建。

1、Feature extractor（特征提取器）

使用双流CNN从一对RGB/IR人物图像中提取尺寸为h×w×d的特征图，其中h、w和d分别为通道的高度、宽度和数量。浅层单独使用参数，深层共享参数。
在这里插入图片描述

2、CMAlign

CMAlign模块以概率的方式使用密集的跨模态对应，双向对齐RGB和IR特征。计算RGB特征与IR特征的余弦相似度：
在这里插入图片描述
其中|| ||2表示计算一个向量的L2范数。

基于相似度，可以利用softmax函数计算出RGB-to-IR的匹配可能性：

在这里插入图片描述
其中P表示匹配概率，大小为h × w × h × w的4D张量，β是温度参数。可以通过对每个RGB特征的匹配概率应用argmax操作符来建立RGB和IR图像之间的密集对应关系，即argmaxq P (P, q)。

如果直接使用硬对应关系来对齐IR和RGB特征是有问题的。对应关系很容易被背景杂波和图像特定细节(例如，纹理和遮挡)分散注意力，RGB和IR图像之间的外观变化甚至更显著。为了解决这个问题，作者只是将IR和RGB特征仅在前景区域之间对齐。
在这里插入图片描述
W表示一个软翘曲运算符，它使用匹配概率聚合特征，定义如下：

掩码保证了特征fRGB，因为行人区域是通过概率聚合IR特征重构的，而其他区域则来自原始RGB特征fRGB。
这种重建连同ID一致性和密集的三联体损失鼓励我们的模型为相应区域提供相似的人物表示，而不管图像形式如何。为了在没有ground-truth标签的情况下推断掩码，我们假设在reID任务中使用ID标签学习到的特征在人区域上的激活程度高于其他部分，并基于局部特征向量的L2规范计算一个激活映射，对于一个RGB特征，用gRGB∈Rh×w表示，如下所示：

在这里插入图片描述
有了RGB特征gRGB的激活图，就可以为RGB特征定义行人掩码，如下所示：

使用f(x)函数进行最大-最小归一化：

CMAlign是一个非参数模块，直接对从特征提取器获得的特征进行操作，有以下优点：
首先，跨模态对齐有助于缓解RGB和IR图像在像素级上的差异，允许更有效地抑制与人物表示相关的模态特征，即使是与不对齐的人物图像；
其次，密集对齐使网络能够专注于学习局部特征，特别是对于行人区域，进一步增强人的表征的辨别能力。

3、Loss

总体目标函数如下：
在这里插入图片描述
1、身份损失（ID Loss）
通过对每个特征应用GeM池化操作，可以获得用φ(fRGB)∈Rd和φ(fIR)∈Rd表示RGB和IR特征的图像级人物表示，然后将每个图像级特征φ(fRGB)和φ(fIR)输入到同一个分类器中，以预测类概率，其中分类器由批处理归一化层组成，然后是具有softmax激活的全连接层，最后是计算类概率和基本真理恒等式之间的交叉熵。（FC + BN + softmax）

硬三元组损失也是使用图像级的人物表示来计算的，从锚点、正点和负点图像中获得，其中锚点和正点图像共享相同的身份标签，而其他对不是。身份损失并没有解决RGB和IR图像之间的跨模态差异。

2、身份一致性损失（LIC）
通过聚合IR特征fIR，重构了人区域的特征fRGB，这表明重构的fRGB的身份应该与原始特征fRGB和fIR的ground-truth身份相同。

3、密集三元组损失（LDT）

在这里插入图片描述

重建的特征正负图像和锚点的相似特征的集合。我们的损失函数迫使负样例中的相似特征聚集在嵌入空间中，只是和正例相比距离较远。这类似于三元组损失，但是，此处会惩罚锚和正例负例中的距离。这种局部关联有可能是因为CMAlign模块以概率的方式在RGB和IR人物图像之间执行密集交叉模式的对齐。

实验结果

在这里插入图片描述

总结

JJxiao24

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences

Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences
复制链接

扫一扫