摘要:现有的人再识别方法在同质相机的基于外观的身份关联方面取得了显著进展,例如地-地匹配。然而,作为一个更实际的场景,在异构摄像机中,空中地面人员再识别(AGPReID)得到的关注很少。为了缓解AGPReID中由于显著的视图差异对鉴别身份表示的破坏,提出了一种简单而有效的视图解耦变压器(VDT)框架。在VDT中设计了两个主要组件来解耦视图相关和视图不相关的特征,即层次减法分离和正交损失,其中层次减法分离将这两个特征分离到VDT内,而正交损失将这两个特征约束为独立。此外,我们还提供了一个名为CARGO的大规模AGPReID数据集,该数据集由5 / 8个航空/地面摄像机,5000个身份和108,563张图像组成。在两个数据集上的实验表明,VDT是一种可行有效的AGPReID解决方案,在保持相同计算复杂度的情况下,VDT在mAP/Rank1上比以前的方法在CARGO上高出5.0%/2.7%,在AG-ReID上高出3.7%/5.2%。我们的项目可在https://github.com/ LinlyAC/VDT-AGPReID上获得。
1. 简介
人员再识别(ReID)旨在基于跨摄像机身份相似度关联感兴趣的人物图像,社会和公民的安全[1-5]。传统的ReID在深度学习时代取得了显著的进展[6-16],但由于以下原因,它与现实场景相差甚远。(1)大多数现有的ReID数据集都是从同构摄像机网络收集的,该网络由相同类型的摄像机组成,如仅地面[17]或仅空中[18]摄像机网络。然而,从图1可以看出,现实世界的监控系统往往部署为异构摄像机网络,包括空中和地面相机,而不是单独的单一类型。地面摄像机覆盖发达地区(城市中心),空中摄像机由于其广阔的视野范围而覆盖欠发达地区(郊区)。这两种类型的互补性质将使ReID的有效性最大化。(2)现有的ReID方法主要考虑齐次匹配(地面[19-21]和空中[9,22,23]),在处理异构匹配(空中-地面)之间的显著视图差异方面是无效的。尽管它很重要,但相关研究非常稀缺。在本文中,我们考虑了新颖实用的视图异构ReID问题,特别是在空中地面相机网络(AGPReID)下的ReID。我们提出了一个视图解耦变压器(VDT)来专门解决强烈的视图差异,这在AGPReID中是一个重大挑战,以阻碍同质和异构匹配。由于与视图相关的特征对于判别身份表示无用,VDT 旨在解耦与视图相关的组件和与视图无关的组件,进一步促进了从剩余视图无关的特征中学习的判别身份。VDT 中有两个关键部分来实现视图解耦,即 (a) 分层减法分离和 (b) 正交损失。具体来说,在将输入图像标记化为一系列补丁令牌后,VDT 附加两个额外的令牌(元令牌和视图令牌)并将它们馈送到由多个 VDT 块堆叠的转换器中。元标记捕获图像中的全局表示,视图标记旨在提取与视图相关的特征。在每个 VDT 块中,(a) 是通过在 self attention 操作后的元标记和视图标记的减法值作为下一个块的更新元标记来实现的。这意味着 VDT 将视图相关特征与全局特征分层分离,以促进身份学习与剩余的视图无关特征。当最后一个块之后获得元标记和视图标记时,(b) 旨在约束身份特征独立于视图特征,最终实现与视图相关的组件和视图无关的组件的正交解耦。同时,元标记和视图标记将分别由身份和视图标签监督。
考虑到AGPReID数据集的稀缺[22]和隐私[5,24],我们提供了一个大规模的CivicAeRial-GrOund (CARGO)数据集,该数据集是从包括5个航空和8个地面摄像机在内的合成城市场景中收集的。CARGO 共收集了 5,000 个身份和 108,563 张图像,不仅包含显着的视图差异,还包含大量分辨率、照明、遮挡等变化。在评估方面,CARGO 考虑了多种模式(空中、地面、空中-地面匹配),可以作为综合基准
• 我们关注空中地面相机网络 (AGPReID) 场景下的 ReID,并提出了一个视图解耦转换器 (VDT),专门用于 AGPReID 中的显着视图差异,它通过分层减法分离和正交损失实现了视图相关和视图无关的特征解耦。• 我们提供了一个称为 CARGO 的大规模合成数据集,将 AGPReID 推进为基准,其中包含五个/八个空中/地面相机、5,000 个身份、108、563 张图像和复杂的挑战。• 实验证明了 VDT 在两个数据集上的优越性,这表明 VDT 在 CARGO 上分别比之前的方法高出 5.0%/2.7%,在 AG-ReID 上分别高出 3.7%/5.2%,保持了相同的计算复杂度。
3 方法
方法3.1。公式与概述公式。AGPReID数据集D = {(xi, yi, vi)}|D|i=1由训练集Dtr和测试集Dte组成,其中xi表示第i个人物图像,yi和vi分别表示对应的身份和视图标签。请注意,vi ∈ {va, vg } 很容易由 D 中的已知相机标签获取,以轻松区分 xi 是否属于空中 va 或地面 vgg 视图。va 和 vg 之间的显着视图差异导致视图偏向的特征空间,表现为身份内低和高身份间相似性。因此,AGPReID 方法的目标是设计一个具有可学习参数 θF 的模型 F(·; θF ) 与视图偏差,可以写成
其中 ∥ · ∥2 表示 L2 距离,x+i /x−i 表示与 xi 具有相同/不同身份的人图像。概述。如图2所示,我们设计了一个简单而有效的框架,称为视图解耦变压器(VDT),以解决AGPReID中的视图差异挑战。对于包含 va 和 vgg 视图的批处理数据 B,我们将它们标记为一系列图像标记(绿色方块),然后将它们附加到它们中,作为 VDT 的输入。VDT 网络由 N 个块组成,每个块首先执行标准的自注意力编码,然后在元标记和视图标记之间执行减法操作,以明确地将与视图相关的特征与全局特征分开。最后,身份和视图分类器将监督从 VDT 输出的更新的元和视图标记。此外,提出了一种正交损失,使这两个标记不相关,从而实现与视图相关的特征和视图无关的特征的完整解耦
3.2.视图解耦变压器提出的VDT框架基于Vit-Base[34]。对于批处理数据B中的每个图像xi,VDT首先将 xi 均匀且不重叠的划分为 M 个图像块,通过 1×1 卷积进一步标记为 M 个补丁嵌入,可以表示为[tp,1; tp,2;···; tp,M]。之后,我们在补丁令牌中附加两个额外的可学习令牌元令牌tm和视图令牌tv,其中tm旨在捕获全局图像表示,tv只关注与视图相关的特征。接下来,我们通过分配相应的位置嵌入来序列化所有标记,可以写成:
其中 θ(j)F 表示 Fj 中的自注意力参数。如果 j = 1,F1 的输入变为 S(xi)。注意Eq.(3)中的t(j+1)m (xi)和t(j+1)v (xi)表示Fj的自我注意操作后更新的元和视图标记,补丁标记为xi。等式。 (4) 明确引导 t(j+1) 和 t(j+1)v 在等式之后可区分。 (3),其中 t(j+1)v 捕获更多与视图相关的特征,并且 t(j+1)m 可以通过从全局(元)特征中删除 t(j+1)v 来捕获更多与视图无关的特征。等式。 (4) 通过 t(j+1)m 促进身份特征的学习,减轻视图偏差的干扰。VDT逐层解耦视图相关和不相关的特征,直到得到更新后的t(N +1)m和t(N +1)v,分别作为解耦良好的身份和视图特征。在推理过程中,我们只使用 t(N +1)m 作为整个检索证据。
3.3. 优化
为了满足任务目标(等式(1)),F(·,·) 的目标由三个部分组成:身份分类器、视图分类器和正交损失。对于每个 xi ∈ B,身份分类器利用交叉熵损失和三元组损失来监督 N +1m (xi),可以写成:
其中|B|表示批大小,yi表示标识标签,ˆyi表示标识预测
其中|〈·,·〉|表示两个令牌嵌入的点积后的绝对值。1我们还提供了图2中Eq.(9)的清晰说明(右边中间的灰色矩形)。请注意,蓝色虚线和黄色向量分别表示公式(3)在FN中输出的元标记和视图标记,蓝色向量表示Eq.(4)的结果,即FN输出的更新tN +1m (xi)。结果表明,实现解耦需要两部分协作,其中等式。 (4)
将视图相关特征与全局特征分离,Eq.(9)将剩余的视图无关特征约束为正交独立于视图相关特征。总体而言,VDT 的总目标可以写成:L = Lc i + Lti + λ(Lc v + Lo),(10) 其中 λ 是平衡多个目标的超参数。