论文笔记: Black Re-ID 黑衣人重识别

Black Re-ID: A Head-shoulder Descriptor for the Challenging Problem of Person Re-Identification

摘要

       (Re-ID)旨在从多个摄像机捕获的一组图像中检索输入的人员图像。尽管最近的 Re-ID 方法取得了巨大的成功,但它们中的大多数都是根据服装的属性 (例如颜色、纹理) 来提取特征。
       然而,人们穿着黑色衣服或在弱光下被监控系统捕获是很常见的,在这种情况下,衣服的属性严重缺失。我们将此问题称为 Black Re-ID 问题。为了解决这个问题,我们建议利用头肩特征来辅助人重识别,而不是依赖服装信息。
       提出了头肩自适应注意力网络(HAA)来学习头肩特征,并设计了一种创新的集成方法来增强我们模型的泛化能力。给定输入的人物图像,如果图像内部的人穿着黑色衣服,则集成方法将通过分配更大的权重来关注头肩特征
       由于缺乏合适的基准数据集来研究 Black Re-ID 问题,我们还提供了第一个 Black-reID 数据集,其中包含训练集中的 1274 个身份。对 Black-reID、Market1501 和 DukeMTMC-reID 数据集的广泛评估表明,与最先进的 Re-ID 方法相比,我们的模型在 Black 和传统 Re-ID 问题上取得了最佳结果。此外,我们的方法也被证明在处理类似服装的人 Re-ID 方面是有效的。 我们的代码和数据集可在 https://github.com/xbq1994/ 上获得。

结论

       提出了一个头肩自适应注意力网络,以支持具有头肩信息的人员 Re-ID。通过自适应注意模块,可以根据输入人物图像的类型自动调整全局和头肩特征的权重。 我们的头肩自适应注意力网络可以与最新的 Re-ID 模型集成,并且是端到端可训练的。 我们还首次提出了 Black ReID 挑战和第一个 Black-reID 数据集以供进一步研究。
      不仅在 BlackreID 数据集上取得了最佳性能,而且在 Market-1501 和 DukeMTMC-reID上也取得了最佳性能,并被证明在处理类似服装方面是有效的。 在 BlackreID 数据集上,我们的模型显着优于以前的方法,在 mAP/rank-1 准确度上至少高出 +4.7%/4.3%

方法

       本文方法可以与最新的 Re-ID 模型(例如,MGN [31])集成,因此可以根据对准确性和速度的不同要求来选择主干。为了简洁地说明框架,在演示中利用了为 ImageNet 分类训练的 ResNet-50。该网络由两个流组成,分别称为全局流头肩注意力流(HSA)第一个流从人物图像中提取全局特征第二个流侧重于 定位 和提取 头肩 信息,以使最终特征在处理Black Re-ID问题时更具辨别力。
       此外,提出了自适应注意力模块来调整全局特征和头肩特征的权重,这取决于一个人是否是黑人。使用交叉熵、三元组和 L2 损失对模型进行端到端训练。在测试时,从人中提取特征,并计算它们之间的欧几里得距离以匹配具有相同 ID 的人。

Global Stream

       通过 ResNet50 网络提取全局特征。 具体来说,从人物图像中提取大小为 C × H × W 的特征图,其中 C、H、W 分别表示通道数、高度和宽度。 然后通过 GAP 和通道缩减处理生成的特征图,以生成大小为 c × 1 × 1 的全局特征

Head-shoulder Attention Stream

       几个基于部分的 Re-ID 模型试图通过训练和测试阶段使用一些现成的姿势估计器 [35、37]来定位身体部位(例如腿、手臂)。 然而,这些方法使 Re-ID 模型更大更慢,因为它是两个模型的组合。 对于头肩区域,它是一个定义不太严格的区域,定位的轻微偏移不会影响 Re-ID 性能,这使其具有定位精度要求低于分割任务的优势。考虑到这些问题,需要一个轻量级的定位层,它可以学习一个边界框,代表头肩区域。
       使用 HSA 流来定位和提取头肩区域的特征,避免使用姿势估计器。 HSA 流包含一个头肩定位层 (HLL),其灵感来自空间变换网络 (STN) [8] 的成功。 如图 (b) 所示,HLL 是一个端到端的可训练模块,能够对特征图应用仿射变换,包括缩放、平移和旋转。 由于头肩区域是一个简单的边界框,我们只保留缩放和移动的能力,相当于从输入中裁剪。 头肩定位层的变换可以实现如下:
请添加图片描述       其中 x i s ,y i s 和 x i t ,y i t 分别是第 i 个像素的源位置和目标坐标,s x ,s y 是缩放参数,t x ,t y 是平移参数。 在头肩定位层中,大小为 C×4 的全连接层输出 sx 、sy 、tx 和 ty ,然后以下步骤将从输入人物图像的相应位置采样像素以生成边界框 .
请添加图片描述
       具体来说,输入的人物图像首先通过头肩定位层,给出头肩区域并调整为与输入相同的形状。 然后,从头肩区域提取大小为 C×H×W 的特征图,并切成 3 个水平网格。 将头肩注意力网络(HAN)应用于每个单独的水平切片最后将它们连接起来以产生大小为 c × 1 × 1 的头肩特征 f h
请添加图片描述

Head-shoulder Attention Network

       图 © 显示了 HAN 的详细结构。 由于特征图的不同通道代表不同的含义,即特征对识别的贡献因通道而异,特征的不同空间位置具有不同的语义。 引入了一个注意力网络来增强头肩在通道和空间维度上的表示
请添加图片描述
       具体来说,对于第 i 个(i = 1, 2, 3) 切片,输入特征 X i 通过一个门控机制,包括一个广义平均 C 池化 (GeM) ,一个权重为 W i ∈ R C×C/ r 的全连接层用于降维,ReLU 激活,另一个具有权重U i ∈ R C×C/r 的全连接 层用于维度增量和 sigmoid 激活 σ 。 这里,r 是减速比。 然后,通道通过 element-wise addition 的shortcut connection architecture 重新加权,可以表示为:
请添加图片描述
              空间注意力是通过加强峰值响应来进行的,这个过程可以表述为:
请添加图片描述

Overview of the proposed framework

请添加图片描述a) 模型由两个流组成:全局流从输入的人物图像中提取全局特征;
头肩注意力流(HSA)通过头肩定位层(HLL)对头肩区域进行裁剪,之后将其分成三个水平条纹并馈送到头肩注意力网络(HAN)中以给出头肩 表示; 在模型的最后,全局和头肩特征通过自适应注意模块进行组装,以生成 Re-ID 的最终表示。
(b) 头肩定位层 (HLL) 的详细结构。
© 头肩注意力网络 (HAN) 的详细结构。 这里,⊗、⊕、GAP、GMP、GeM、L tr ipl et 、L ce 、L 2 表示逐元素乘法、逐元素加法、全局平均池化、全局最大池化、广义均值池化、三元组损失、交叉熵损失和L2损失,⊙是采样器。

Adaptive Attention

       大多数现有的 Re-ID 方法 直接连接全局和局部特征,忽略了特征权重与输入条件之间的关系。 也就是说,无论输入什么样的人,例如被遮挡或暴露,网络对全局特征的关注与对局部特征的关注相同。 为了缓解这个问题,我们提出了自适应注意模块,通过区分输入类型来确定全局和局部特征权重。 具体来说,自适应注意力流会首先判断它是否是黑衣人,并且比非黑衣人更关注黑衣人的头肩feat。
       具体来说,首先,将全局特征 fä 输入一个全连接层以收集大小为 N × 2 的特征用 f b 表示,表示输入的人是否是黑色的, 其中 N 是批量大小。 之后,f b 被送入另一个全连接层,得到大小为 N × 2 的特征图 f w 。 f w 是全局特征和头肩特征的权重,取决于人是否是黑人。 也就是说,当人穿着黑色衣服时,将对头肩特征应用更高的注意力。 最后,整合全局特征和头肩特征如下:
请添加图片描述

THE BLACK-REID DATASET

       为了促进对 Black Re-ID 问题的研究,引入了 Black-reID,这是第一个专注于 Black Re-ID 问题的数据集,源自 Market1501 [38]、DukeMTMC-reID [22]、Partial [39] 和遮挡的[44]数据集。

([44] Jiaxuan Zhuo, Zeyu Chen, Jian-Huang Lai, and Guangcong Wang.2018. Occluded Person Re-Identification. IEEE International Conference on Multimedia and Expo (ICME) (2018), 1–6.)

       根据人们穿的衣服,Black-reID 数据集由两组组成。第一组是黑色组,专注于 Black-reID 问题,包含 5,649 张图像,涵盖训练集中的 688 个身份,以及 1,489 个查询图像的 1,644 个身份和测试集中的 4,973 个图库图像。第二组是白组,是为了考察模特在相似服装中的Re-ID能力而构建的。白色组包含 586 个训练对象的 10,040 张图像,628 个查询对象的 2,756 张图像和 10336 个图库图像。其次,为了符合现实,两组都包括穿着相应颜色的人和不穿相应颜色的人。这种设计的原因是我们希望我们的方法不仅能有效地解决 Black Re-ID 问题,而且在处理常规场景时也能可靠。第三,我们标注了Black-reID中训练集的头肩区域边界框和两组的黑白衣服人的注释ID.

总结

对本文的大概内容理解了,但是不知道作者设计的比较复杂的注意力结构是如何想出来的,是根据经验吗?
还有就是读完了文章也不知道是怎麼分割出头肩部结构的😳.其他的都比较清楚了.

欢迎读者提问或解答❤️

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值