会议:AAAI
年份:2024
代码:GitHub - babahui/FPChttps://github.com/babahui/fpc
摘要
这篇论文提出了一种用于遮挡人体再识别(Re-ID)的特征剪枝和整合(Feature Pruning and Consolidation, FPC)框架。遮挡人体再识别是一个挑战性问题,因为遮挡物的存在会干扰识别过程。现有的方法依赖于人体关键点和语义分割等先验知识线索,但在严重遮挡和其他人体作为遮挡物的情况下容易失败。本文提出的FPC框架通过稀疏编码器、多视图特征匹配模块和特征整合解码器来避免显式解析人体结构。实验结果表明,该框架在遮挡、部分和整体Re-ID数据集上的有效性,特别是在具有挑战性的Occluded-Duke数据集上,其方法在mAP(平均精度均值)和Rank-1准确率上分别超过了最先进的结果至少8.6%和6.0%。
拟解决的问题
遮挡人体再识别:在监控摄像头下,由于遮挡物的存在,识别同一个人变得困难。遮挡物可能包括其他行人或物体,这会导致识别过程中错误地包含遮挡物的特征,或缺少目标特征。
创新之处
- 特征剪枝机制:首次将令牌稀疏化机制引入遮挡人体ReID问题,避免了显式使用人体语义,更好地剪枝无关特征。
- 特征匹配和整合模块:提出了一种从多视图图库邻居中恢复遮挡查询特征的方法,与特征分割方法相比,该模块使用Transformer令牌自然地保留特征的连通性和丰富性。
- 基于令牌的相似性度量:设计了一种新颖的基于令牌的度量方法,通过线性组合图像级距离和补丁级距离来衡量图像的相似性。
方法论
该框架由三个部分组成:(1)稀疏编码器S进行令牌稀疏化,以修剪干扰令牌并保留注意令牌;(2)多视图特征匹配模块M通过图像和补丁级组合相似度在稀疏查询特征和预先训练的图库内存之间生成一个排序列表;(3)特征巩固框架C利用识别邻居的完整信息来补偿修剪后的查询特征。
Sparse Encoder
Sparse Encoder负责接收查询图像并执行令牌稀疏化,即保留与目标行人相关的区域的令牌,同时丢弃与遮挡物或背景相关的令牌。这一过程不依赖于人体的先验结构信息,而是通过分析类令牌([class] token)与其他令牌间的相关性来实现。
输入处理:输入图像 𝑥 首先被分割成 𝑁 个重叠的补丁(patches),每个补丁 通过线性投影 𝑓(⋅) 嵌入到特征空间中。然后,将一个可学习的类令牌 [
] 与补丁嵌入相结合,并应用位置编码
和相机索引编码
。
令牌稀疏化: 通过视觉Transformer中 [cls] 令牌和其他令牌之间的注意力相关性来评估每个令牌的重要性,我们可以将 [cls] 令牌的值表示为:
其中, 表示类令牌的注意力矩阵,
,𝐾,𝑉 分别代表类令牌的查询矩阵、键矩阵和值矩阵。对于自注意力层中的多个头,通过平均注意力矩阵来计算:
由于类令牌在重要补丁区域对应较大的注意力值,因此可以根据其与类令牌的相关性来评估令牌的重要性。通过保留 中最大的 𝐾 个值对应的令牌,并丢弃其他令牌,其中
,𝛾 是保留率,
是当前层的总令牌数。
稀疏编码器监督损失:使用交叉熵ID损失和三元组损失来监督稀疏编码器
其中 表示交叉熵ID损失,
表示三元组损失。
交叉熵损失:
其中:
三元组损失:目标是使得锚点与正样本的距离小于锚点与负样本的距离至少 𝑚𝑎𝑟𝑔𝑖𝑛margin 的量。
其中:
Multi-view Feature Matching Module
该模块的目的是在图库中为每个查询图像(剪枝之后的序列)找到k个最近的邻居(k-nearest neighbors),这些邻居将用于后续的特征整合过程。通过比较查询图像的特征与图库中每个图像的特征,选择最相似的k个图库图像。
图像级距离:使用余弦相似度来定义,计算查询图像的类令牌与图库记忆中图像的类令牌之间的相似性
其中:其中和
是第i个查询图像的[cls]令牌,图库内存中第j个图像。〈 · 〉 是点积。
补丁级距离: 使用Earth Mover’s Distance (EMD)来衡量,EMD用于测量两个多维分布之间的相似性。对于查询图像的补丁令牌集合 𝑄 和图库图像的补丁令牌集合 𝐺,补丁级距离 通过以下线性规划问题计算:
其中,𝐹 是流矩阵, 表示从补丁
到补丁
的流,
是补丁之间的余弦距离。该问题受以下约束:
综合相似性度量:最后,将图像级和补丁级距离以线性组合的方式结合起来,作为特征匹配的最终距离度量
其中,𝛼 是用于平衡图像级和补丁级距离的权重。
使用上述相似性度量,为每个查询图像生成图库中图像的排序列表,并选择k个最近的邻居用于后续的特征整合阶段。
多视图特征匹配模块通过有效地结合图像和补丁级别的信息,提高了在遮挡情况下找到最相关图库图像的能力,从而为特征整合提供了坚实的基础。
Feature Consolidation Decoder
特征整合解码器的主要目的是将查询图像的特征与图库邻居的特征结合起来,以恢复可能因遮挡而丢失的重要信息。这个过程有助于提高再识别的准确性,尤其是在查询图像受到遮挡时。
全局特征初始化:首先,将查询图像和图库邻居的类令牌([cls] token)平均化,作为初始全局特征。
多视图特征聚合:将平均化的类令牌与查询图像和图库邻居的补丁令牌结合起来,以聚合多视图行人的信息。
其中: 是查询的补丁令牌,
是第 i 个图库邻居的补丁令牌。
变换器解码器:将聚合的多视图特征输入到变换器解码器中,以进一步整合和细化特征。
在解码器中,将多视图特征 转换为查询(Q)、键(K)、值(V)向量:
利用类令牌的注意力矩阵分解计算注意力:
其中,Cat(⋅) 是向量组合操作,𝐴′ 表示类令牌的注意力矩阵,𝑉 是值向量,下标 𝑐,𝑞,𝑔 分别对应类令牌、查询和图库邻居。
巩固损失:使用交叉熵损失和三元组损失来监督特征整合解码器生成的类令牌
组合损失: 模型的总损失是稀疏编码器损失和特征整合损失的总和:
总的来说:
1. 稀疏编码器(Sparse Encoder)
- 目的:去除与背景噪声和遮挡物相关的不重要图像令牌,保留与目标行人相关的特征。
- 操作:
- 输入图像被分割成多个重叠的补丁。
- 每个补丁通过线性投影嵌入到特征空间。
- 结合类令牌([cls] token)、位置编码和相机索引编码。
- 通过类令牌注意力机制评估每个令牌的重要性,保留重要的令牌并剪枝掉不重要的令牌。
2. 多视图特征匹配模块(Multi-view Feature Matching Module)
- 目的:在图库中找到与查询图像最相关的k个最近邻居。
- 操作:
- 使用预训练的编码器学习图库记忆,包含类令牌和补丁令牌。
- 计算查询图像特征与图库记忆图像特征之间的相似性,包括图像级和补丁级的相似性。
- 图像级距离通过余弦相似度计算,补丁级距离通过Earth Mover’s Distance (EMD)计算。
- 综合相似性度量通过线性组合图像级和补丁级距离得到。
3. 特征整合解码器(Feature Consolidation Decoder)
- 目的:利用图库邻居的信息来补偿查询图像中被剪枝的特征。
- 操作:
- 将查询图像和图库邻居的类令牌平均化,作为初始全局特征。
- 结合查询图像和图库邻居的补丁令牌,聚合多视图行人的信息。
- 将聚合的多视图特征输入到变换器解码器中,进一步整合和细化特征。
结论
本文提出的FPC框架在多个遮挡、部分和整体人体ReID数据集上实现了最先进的性能。特别是,在具有挑战性的Occluded-Duke数据集上,FPC在mAP和Rank-1准确率上分别超过了其他方法至少8.6%和6.0%。这表明FPC框架在处理遮挡人体再识别任务中具有显著的有效性和鲁棒性。此外,论文还讨论了该方法在实际应用中的潜在挑战和未来的优化方向。
具体挑战:
- 大量图库图像:处理大规模图库数据需要高效的计算和存储解决方案。
- 图库更新需求:图库需要定期更新以保持识别系统的准确性,这涉及到数据管理的挑战。
- 特征存储成本:存储大量特征数据需要较大的存储空间,这可能在资源有限的情况下成为问题。
- 查询图像缺乏正样本:如果图库中没有查询图像的正样本,所有再识别方法(包括FPC)都无法找到正确的身份。
未来优化方向:
- 优化Drop Rate:当前模型中的补丁丢弃率是固定的,未来的研究计划包括对丢弃率进行自适应优化。
- 框架的泛化性:未来工作将探索将剪枝和整合框架应用于更广泛的遮挡挑战,如混合整体和遮挡Re-ID、遮挡对象分类等,以增强框架的泛化能力和适用性。
- 高效的距离计算:尽管已经采用了两阶段过程来高效选择最优样本,但仍然有改进空间,特别是在计算EMD(Earth Mover's Distance)时的效率。
- 实际应用的适用性分析:将方法应用于实际场景的挑战,如使用HNSW算法进行快速搜索,以及使用类标记([cls] token)来减少存储需求。