Progressive Attribute Embedding for Accurate Cross-modality Person Re-ID—效果可以说是领域最强的一篇文章

JJxiao24

已于 2023-10-26 15:51:49 修改

阅读量252

点赞数

分类专栏：论文学习跨膜态行人重识别文章标签： 1024程序员节计算机视觉深度学习人工智能

于 2023-10-24 22:03:56 首次发布

本文链接：https://blog.csdn.net/JJxiao520/article/details/131074907

版权

论文学习同时被 2 个专栏收录

30 篇文章 8 订阅

订阅专栏

跨膜态行人重识别

27 篇文章 15 订阅

订阅专栏

文章目录

题目：Progressive Attribute Embedding for Accurate Cross-modality Person Re-ID（用于准确的渐进属性嵌入的跨模态行人重识别）

期刊合集：最近五年，包含顶刊，顶会，学报>>网址
文章来源：ACM MM 2022 谷歌学术
代码来源：无

研究背景

· 问题： 属性是用于弥合不同模态（可见光和红外图像）之间外观差异的重要信息，但在跨模态行人重识别中尚未得到很好的探索。除了来自视图变化、光照和背景杂波等常见的挑战外，额外还有匹配同一个人的模态异构数据的挑战。
· 解决办法： 首先，文章提出一个渐进属性嵌入模块（PAE），以有效地融合细粒度的语义属性信息和全局结构视觉信息。作者采取新颖的级联方式，利用属性信息来学习不同模态中人物图像之间的关系，从而缓解了模态的异质性。与此同时，通过嵌入属性信息来指导更具判别性的图像特征生成，用来降低了类间相似度和类内差异。最后，还提出了一种基于属性的辅助学习策略（AAL），通过联合属性和身份分类损失来监督网络学习模态不变和身份特定的局部特征。PAE 和 AAL 在端到端框架中进行联合优化，即渐进式属性嵌入网络(PAENet)。

论文分析

注意：属性与全局图像身份信息不同，属性是语义上细粒度的信息，非常容易在网络训练过程中丢失。
渐进属性嵌入网络（PAENet）用来全面整合属性信息和图像信息，

PAE包括三个级别的嵌入。第一级嵌入依赖于交叉注意机制，它通过关键、值和查询之间的相互作用来学习不同模态之间的互补信息。通过这种嵌入，图像和属性之间的语义空间差距得以有效减小。与属性相关联的区域可以自适应地提供有辨别力的细节，以实现细粒度匹配。因此，我们设计了第二级嵌入，通过属性引导的关注机制动态选择每个模态内与属性相关的外观区域，用于细粒度匹配。最后，某个区域可能包含多个属性，它们对于识别有不同的影响。因此，三级嵌入被用来协作地利用通道关注作为逐元素门控函数，以选择关键属性。通过级联这些嵌入，PAENet可以逐渐实现属性和图像的有效整合。与此同时，它可以协同地学习不同属性之间的关系。

贡献点：

渐进式属性嵌入，有效地利用属性和图像之间的内部联系，以及属性之间的潜在交互来提高跨模态 Re-ID 性能，并且在网络训练中还利用了属性的细粒度信息。
基于属性的辅助学习方案，进一步提高了由属性引导的图像的判别表示，同时保持效率。

网络框架

在这里插入图片描述
渐进式属性嵌入网络(PAENet)概述上所示。输入图像包括可见光和红外图像，首先被送入双流网络，以增加图像特征。然后，提出了渐进式属性嵌入(PAE)来融合属性和图像特征，促进鉴别模态无关特征的学习，并分配更准确的局部特征。同时，要避免误解！针对属性信息过多干扰导致的身份识别问题，提出了基于属性的辅助学习(attribute-based auxiliary learning, AAL)来辅助生成更好的属性特征表示。这两个组件集成成一个整体!并能相互促进。

1、 Baseline（基线）

传统的双流网络被用作主干。
首先，作者设置模态特定特征网络，conv ^m，m∈[v, t]，就是说，conv^v 代表的是可见流，conv^v 代表红外流，通过操作可以得到属于各自模态的对应特征，再使用特征嵌入网络 conv^s 将这些模态特定特征映射到共享的公共特征空间（放在一起，大家相互学，消除隔阂），假设可见光图像为 I ^v∈R ^3×H×W，同理，红外也是一样 I ^t∈R ^3×H×W。

网络学习到的 3D 特征，F ^v 和F ^t 在公共特征空间的表示如下：
在这里插入图片描述
其中，F ^m∈R C × H × W。作者这里采用 ResNet-50 的主干网络，并且在每个分支上又包含有一个预训练模型，它是 GAP 之前使用的 ResNet-50 架构。同时还去除了最后层的下采样操作（这会丰富特征粒度），转而使用 Gem-pool 来获得新的粒度特征（f ^m）。

作者还采取主流的一些方法来对特征进行约束，并将这些得到的特征池用于后续的识别任务。1. MMD 作为基线，2.身份损失 L _id，3. MMD 提出的最大平均差异损失 L ^MMD 和异中心三重态损失 L ^Hc-Tri 来约束网络，那么基线总的损失 L _b 表示如下。
在这里插入图片描述

2、Progressive Attribute Embedding（渐进性属性嵌入）

为了解决图像和属性之间的差异，PAE 模块以 渐进嵌入 的方式混合这两种类型的信息，以弥合跨模态的差距。具体来说，一级嵌入旨在减少图像和属性之间语义空间的差异；二级嵌入通过属性引导注意力机制动态选择与属性相关的外观区域；三级嵌入是协同探索不同属性与丰富的上下文信息之间的联系。

首先呢，使用一个独热向量 A ^m 来表示属性， A ^m ={a1,a2~,an}，ai ∈ [0,1]，这就是对属性做了一个预处理设置操作。将得到的属性向量 A ^m 映射到 2048 维度的特征向量 (f ^m _a)，结合图像特征 f ^m 和属性嵌入特征 f ^m _a ，可以学习属性增强特征 emb1_feat，用来学习全局视觉信息和局部细节信息。
在这里插入图片描述
Embedding-I.

属性是细粒度的语义信息，而图像属于全局结构视觉信息。因此，属性和图像之间存在很大的差距。作者认为交叉注意机制可以通过使用一种简单而强大的推理机制发现不同信息之间隐藏的关系，通过交叉注意机制，从图像和属性中提取出有用信息，挖掘关键信息。
具体做法：在属性这边使用到了一个 linear 层来将得到的属性嵌入特征的维度转化为和图片一样的维度，然后将图像跟属性一起馈送到交叉自注意力机制。为了有效融合属性和图像，图像特征( f ^m ) 作为查询(Q)，同时图像特征( f ^m )和属性特征( f ^m _a ) 进行 concate (拼接)操作，分别作为键(K)和值(V)。

以下表达式实现融合操作：
在这里插入图片描述
d 是嵌入特征的维度。

在 Embedding-I 框架图中可以看见，交叉关注是基于查询(Q)和关键字(K)之间可训练的关联关系。它包含两个残差连接，一个归一化层和一个简单的前馈网络，最终，网络可以学习到清晰的结构信息和细微的像素级特征( f ^m _e1 )，就是转到 Embedding-II 模块的emb1_feat。
在这里插入图片描述
Embedding-II.

Embedding-I 采用长期依赖而不是局部空间方法来融合属性和图像特征。然而，它无法利用属性特征来引导图像特征的传递，而属性是非常容易在网络训练时丢失的详细信息。为此级联了属性引导的注意力机制，以帮助解决属性信息的不足。作者认为不同属性对应于图像上的不同位置。对于属性特征，只需要关注特定的相关区域。
因此，为了感知与属性相关的区域并自适应地提供最具区分性的详细信息，随后引入了二级嵌入，使用特定属性的引导来使用空间注意机制。具体而言，首先通过线性层和空间复制（1 * 1卷积层和 reshape 操作）处理属性。然后，对融合后的特征（ f ^m _e1 ) 同样使用一个 1 * 1 卷积层，为了统一他们的维度和大小，使其与经过空间复制操作后的属性特征维度和大小保持一致。为了表示方便，属性的处理和嵌入特征分别用符号 “p1” 和 “p2” 表示。在特征映射之后，就获得了注意权重。

在这里插入图片描述

Embedding-III.
在这里插入图片描述
尽管前两级嵌入可以自适应地关注图像的特定区域，但一个特定区域可能与多个属性相关联。此外，一些属性可能对识别性能产生负面影响，而另一些属性可能对性能有积极作用。为了区分不同属性的重要性，进一步提出了第三个嵌入，使用通道注意作为逐元素门控函数，它可以从不同属性中选择对网络性能有积极作用的属性。
具体，首先使用一个线性层将属性 A ^m 嵌入到一个嵌入向量中。将前两个嵌入之后的属性嵌入向量( f ^m _a ) 和图像特征（ f ^m _e2 ) 进行 concate 连接，然后经过 n 个全连接层和 sigmoid 函数来获取通道注意权重，

在这里插入图片描述
其中，i ∈ [1，2，···,n]，n 是属性的数量。然后我们将权重 w ^m 和特征图 F ^m 相乘，最终获得不一样的特征，

3、Attribute-based Auxiliary Learning（基于属性的辅助学习）

经过 PAE 模块之后，融合后的特征 F ^m _e 能够将属性信息很好地整合到图像特征中。然而，这也可能会使模型过分地偏向于属性信息，从而削弱了身份信息。因此作者提出一个仅在训练阶段使用的基于属性的辅助学习（AAL）模块。
设计这个模块目的是通过一个辅助属性分类任务来帮助学习更详细的身份信息。采取这种方式，属性和图像能够利用各自的有用信息来相互补充，从而增强特征表示。此外，这个模块引入原始图像特征，用于帮助生成更好的属性特征，以供属性分类任务使用。首先，将所有池化后的融合特征 f ^m _i 进行连接，然后计算注意权重，
在这里插入图片描述
Attribute Loss. 是为了对属性进行一个约束，添加属性分类分支，并设置一个属性分类器，通过额外属性标签的约束来获取属性预测，这两个做一次交叉熵损失约束，保证属性是与身份相关，而不是其他无关的属性信息。