Learning Context Graph for Person Search（基于上下文图网络的行人检索模型）

最新推荐文章于 2022-10-18 17:36:15 发布

不甘现状的咸鱼却没办法

最新推荐文章于 2022-10-18 17:36:15 发布

阅读量1.3k

点赞数

分类专栏： Person Re-ID 文章标签： re-id

Person Re-ID 专栏收录该内容

15 篇文章 5 订阅

订阅专栏

摘要：通过深度卷积神经网络，行人重识别已经取得了很大进展。然而，大多数先前的方法都侧重于学习单个外观特征，并且模型难以处理具有不同光照，大的姿势变化和遮挡困难的情况。在这项工作中，我们更进一步，考虑使用上下文信息进行人员搜索。对于probe-gallery数据对，我们首先提出一个上下文实例扩展模块，该模块使用注意力模块来搜索和过滤场景中的有用上下文信息。我们还构建了一个图学习框架，以有效地使用上下文来更新目标相似性。这两个模块建立在联合检测和实例特征学习框架之上，这提高了学习特征的辨别力。提出的框架在两个广泛使用的人员搜索数据集上实现了最先进的性能。

1 简介：

行人重识别（re-id）是计算机视觉中的一个基础和重要的研究课题。它旨在通过多摄像头监控系统重新识别个人。行人重识别在与视频监控相关的应用中具有很大的潜力，例如搜索丢失的人或嫌疑人。这些应用程序与公共安全和安全密切相关，因此行人重识别近年来越来越受到关注。对于典型的人re-id方法，re-id系统被提供有目标人作为probe，并且旨在搜索已知ID记录的gallery以找到匹配的记录。由于以下原因，行人重识别极具挑战性。首先，由于数据源不同，probe和gallery的分布是多模态的。例如，行人可以通过监控摄像头或智能手机捕获。其次，不同的光照和人体姿势会增加类内变化。第三，不准确的检测/跟踪，遮挡和背景杂乱导致严重的外观变化，这进一步增加了行人重识别的难度。

传统行人重识别任务仅关注于在不同摄像头之间匹配手动裁剪的图像快照或视频剪辑。这些方法考虑基于个体特征学习度量距离。因此，一个重要的先决条件是应该在场景中精确地检测或注释前景行人。否则，不准确的检测或注释会因为个体特征带来很大的噪音，这使得这个问题在实际场景中设置不切实际。为弥合这一差距，最近的一些作品[43,42]将人物搜索设置引入该领域。该想法是在单个框架内同时处理两个任务（即行人检测和人员重新识别）。此设置更接近实际应用，并允许系统在没有线下行人检测器的情况下运行。然而，这些方法仍然使用个体特征作为特征线索。因此很难区分具有相似穿着的人，特别是在我们必须搜索巨大的gallery的情况下。为了进一步解决这个问题，最近的一些工作观察到场景上下文可以提供比单个外观线索更丰富的信息。在现实情况下，人们可能会成群的走路[30]。即使人们独自行走，出现在同一场景中的其他相邻行人也包含重要的背景线索。换句话说，由相同相机捕获的同步行人将很有可能被其相邻相机捕获。使用上下文/组信息是解决现实世界行人重识别的的一个有前途的方向，但是最近的工作受到以下问题的困扰。首先，如何识别群体并非易事。现有方法[24]通常利用手动注释来定位语义组，这需要大量的人力劳动。其他方法[4,2]利用空间和时间线索，例如场景中的速度和相对位置，这被视为模型组行为的社会约束，以帮助促进行人重识别。这些社会力量模型利用精心设计的约束来模拟场景中的社会现象，这通常不具有微不足道的解决方案并且难以优化。

在这项工作中，我们提出了一个新的框架来探索背景线索去增强的人物搜索。图1中说明了所提出框架的整体流程。由于各个外观特征的功能不足以区分不同的人，我们首先建议使用上下文信息扩展实例级功能。对于人物搜索，最重要的背景是邻近的行人。因此，给定目标人物（图1中标记为红色），我们收集场景中的所有其他行人作为上下文候选者。在所有这些候选人中，有些情况很有用，有些则只是噪音。因此，在利用上下文信息之前，一个重要的步骤是从噪声中过滤有用的上下文。为此，我们引入了一个相关注意力模块，它在probe和gallery图像中采用上下文候选，并输出匹配的对作为上下文信息。对于个人和相应的上下文，剩下的问题是如何充分利用所有信息来更自信地判断目标对是否属于同一身份。我们建议构建一个上下文图来模拟probe-gallery对的全局相似性。具体而言，图节点由目标对和上下文对组成。为了使用上下文信息，所有上下文节点都连接到目标节点。训练该图以输出目标对的相似性。

我们在两个广泛使用的数据集评估我们的框架，包括CUHK-SYSU [42]和PRW数据集[54]。实验结果表明，我们的方法可以比以前的技术水平获得显着的改进。我们的贡献包括：1）我们在person search中引入了一个多部分学习方案，该方案支持端到端人体检测和多部分特征学习。 2）我们引入一个相对注意力模型来自适应地选择场景的信息背景。 3）我们构建一个图表来学习考虑上下文信息的两个人之间的全局相似性。

2 相关工作

3 方法

3.1 概述

虽然深度CNN模型极大地提高了实例级个体特征的表示能力，但是在许多复杂情况下仍然难以在不同摄像机视图中检索目标人物。因此，我们的核心思想是扩展实例功能以便可以使用上下文信息来学习更好的特征。具体来说，我们的框架由三个主要步骤组成。

实例检测和特征学习：在此阶段，我们利用基线CNN对人物搜索数据集执行联合检测和特征学习。根据Fatser R-CNN [32]框架，区域提议网络（RPN）嵌入在ResNet-50基线生成的特征图之上，然后将边界框输入RoI-Pooling层以提取单独的外观特征。此外，我们将基于部分的特征学习框架引入到我们的模型中，从而产生更多的判别表示。

上下文实例扩展：这是我们框架的关键组件之一，它构建用于扩展具有上下文信息的实例功能，以便更好地特征。 probe和gallery图像之间的所有实例对都被视为上下文候选对，并且需要过滤噪声上下文。为此，我们构建了一个相对关注层来测量上下文对之间的视觉相似性，并且只有具有足够置信度的对被选为信息性上下文。

上下文图表特征学习：这是我们框架的另一个重要组成部分。给定probe-gallery对，我们构建一个图来测量目标对的相似性。图节点由目标人员和相关的上下文对组成，它们与图形边缘相连。我们应用图形卷积网络来学习probe-gallery对之间的相似性。

3.2 实例预测与特征学习

3.2.1 行人预测

真人搜索场景通常是在室外，因此在搜索之前需要在场景中检测目标行人。目前最先进的框架在单个框架中执行人员检测和特征学习，这极大地促进了传统的管道（即，单独的检测和特征学习）。在这项工作中，我们将这种流行的结构作为我们框架中的骨干网络。整体检测和特征学习框架如图2所示。

具体来说，我们采用ResNet-50 [14]作为主干网络，它分为两部分。第一部分（conv1至conv4 3）输出1024个通道特征图，其具有输入图像的1/16分辨率。在Faster R-CNN框架之后，在这些特征图之上构建行人提议网络（PPN）以生成人物提议，其进一步传递到512×3×3卷积层以生成行人特征。与先前的框架类似，我们为每个特征图分配9个锚点。利用两个损失项来训练RPN，即用于判断锚框是否是人的二元Softmax分类器和用于执行边界框回归的线性层。最后，非极大值抑制用于删除重复检测，并为每个图像保留128个proposals。所有候选proposals都被输入RoI-Pooling层以生成每个边界框的特征表示。这些特征然后由ResNet50的第二部分（conv4 4到conv5 3）进行卷积。然后将这些特征连接到均值池化层以生成2048维特征表示。池化的特征与两个完全连接的（Fc）层连接。第一个分支是二元Softmax层，它被训练以进行人/非人的判断。第二分支是256维Fc层，其输出进一步被标准化为L-2作为用于推断的特征表示。

3.2.2 基于区域的特征学习

已经证明基于部件的模型对于行人重识别任务是有效的，这促使我们也考虑为人物搜索任务建模人体部分。因此，我们设计了一个基于区域的学习框架来有效地模拟零件特征。除了全局平均池层之外，我们还在ResNet-50的第二部分之后设计了几个基于部件的池化层。每个基于部件的池化层集中于特定的人体部分，并将特征汇集到2048维向量中，其进一步与完全连接的层连接并归一化为256维特征。这些功能还用于特征学习。具体来说，我们设计了3个部分敏感的汇集层，它们集中在上半身，躯干和下半身。每个层在7×7特征映射中汇集7×3区域，如图2所示。

为了学习稳健的特征表示，设计的损失函数应该保证学习特征的辨别力。虽然Softmax损失被广泛用于分类任务，但是当身份号很大时很难训练Softmax层。同时，Faster R-CNN框架消耗大量内存，这限制了小批量只能具有小尺寸。因此，每个小批量中出现的特征都非常稀疏，这使得Softmax损失训练更加困难。为了解决这个问题，以前的方法设计了几个在线学习损失。在这项工作中，我们采用在线实例匹配（OIM）损失[42]来监督每个部分的特征学习。

3.3 上下文实例扩展

由于个体特征不足以用于现实世界人物检索任务，我们建议使用上下文信息作为补充。图3中示出了一个示例。目标是识别红色边界框中的人是否属于同一身份。然而，结果通常不自信，因为人的外观遭受不同场景的巨大变化。在这种情况下，我们观察到两个场景中出现了绿色边界框中的相同人物，因此可以更加自信地判断红色边界框中的人确实属于同一身份。因此，绿色边框中的人起着积极的作用，而场景中的其他人则是噪声环境。在这一部分中，我们提出了一个相关注意力模型来过滤所有上下文，并且只选择正相关的上下文来扩展单个特征。

具体来说，我们将在probe和gallery场景中出现的一组人视为积极的背景。剩下的问题是如何判断两个检测到的行人是否属于同一身份。一个简单的解决方案是计算特征对之间的相似性，并设置阈值以进行二元决策。我们使用x ri，x rj来表示来自对象i和j的第r个部分的特征。考虑不同的对象部分，整体相似度s（i，j）可以表示为不同部分的总和：

其中R是部件的数量（在我们的框架中R = 4），cos（x i，x j）表示特征对之间的余弦相似性。 w r是第r个对象部件的贡献，通常由经验设定。然而，正如[16]中所讨论的，统一组合这些部件并不是最佳解决方案。由于可能的遮挡，不同的视角和光照条件，不同对象部分的贡献在样本之间显着不同。因此，黄等人[16]提出一个实例区域注意网络，为实例部分分配不同的权重。注意权重测量实例部分贡献，部分相似性乘以两部分的注意权重。在这项工作中，我们观察到零件贡献不仅与样品零件本身有关，而且与要匹配的零件有关。换句话说，零件贡献与零件对有关。一个例子如图2所示。头部和面部外观是第一个身体部位的重要线索。但是，当没有正面视图时，两个部分往往具有较低的注意力。事实上，这两个部分有很大的相似性，可以提供重要的信息来做出积极的判断。在这种观察的启发下，我们设计了一个相对关注网络，它考虑成对信息来预测部分权重。

在本节中，我们将介绍所提出的上下文图的详细结构以及用于学习图参数的GCN模型。整体结构在图3的右侧示出。给出两个图像A和B.我们的模型的目的是判断目标对是否出现在图像A 0和B 0（在红色边界框中）属于同一个同一性，给定K个上下文对（A i，B i），i∈{1，...，K}。目标是构建图以共同考虑目标对和上下文信息，并最终输出相似性得分。一个简单的解决方案是使用两个图形来模拟每个图像，并利用Siamese GCN结构来提取两个图形的特征，如[20]中所述。但是，Siamese结构会阻止上下文信息在图形之间传播，从而导致重大信息丢失。在我们的情况下，目标和背景都成对出现。因此，我们构建一个节点由实例对组成的图。在该图中，目标节点是图的中心，其连接到所有上下文节点以进行信息传播和特征更新。

特别地，考虑由N个顶点V和一组边E组成的图G = {V，E}。我们为每个节点分配一对特征（x A j，x B j），j∈{0，... ..，K}。如果图像具有K个上下文对，则N = K + 1。我们使用X∈RN×2d，其中d是实例级特征维度。我们使用A∈RN×N来表示与图G相关联的相邻矩阵。如果我们将目标节点指定为图中的第一个节点，则相邻矩阵为：

其中i，j∈{1，...，N}。如果我们使用Â来表示规范化的邻接矩阵，则逐层GCN传播为如下：