Mancs: A Multi-task Attentional Network with Curriculum Sampling for Person Re-identification

论文

Abstract

我们提出了一种名为Mancs的新型深度网络,它从以下几个方面解决了人们的重新识别问题:充分利用人员错位问题的注意机制,对排名损失进行适当抽样,以获得更稳定的人员表征。从技术上讲,我们提供了一个新的完全注意区块,它受到深度监督,可以插入任何CNN,以及一种新的课程抽样方法,这对于训练排名损失是有效的。学习任务被集成到一个统一的框架中并共同优化。在Market1501,CUHK03和DukeMTMC上进行了实验。所有结果都表明,Mancs可以明显优于之前的最先进的水平。此外,新提出的想法的有效性已经通过广泛的消融研究得到证实。

1 Introduction

人员重新识别(re-ID)旨在在摄像机网络中发现感兴趣的人员,这是计算机视觉中公认的研究问题[40]。由于其在视频监控应用中的巨大影响[17]以及公众可获得的大规模re-ID数据集以及深度学习系统令人鼓舞的re-ID结果,人re-ID在计算机视觉中变得越来越受欢迎。

  然而,在视点变化较大,错位较大和遮挡等情况下,人员重新识别问题颇具挑战性。因此,人们提出了很多工作来基于具有给定人员身份的训练图像学习有效的人员表示。学习问题自然被公式化为距离度量学习问题[6,41]。它旨在寻找一种新的距离度量,以将原始人的特征(例如HOG [9]和SIFT [25])转换为一个新的空间,在该空间中,具有相同身份的示例将更接近,否则将具有较大的距离。在深度学习人员re-ID系统中,距离度量学习的概念通常被表述为排名损失,并已被证明是有效的。典型的排名损失是三元组损失,例如[28]。给定一个锚示例,其中正示例与锚具有相同的身份,而负示例具有不同的身份,则三重态损失会强制锚-正正样本距离小于锚-负样本距离。除了三元组损失外,还提出了其他类型的学习损失,例如直方图损失[31]和四元组损失[6]。由于正样本和负样本对的数量不平衡,因此在使用度量学习损失进行训练时,示例样本的策略是必不可少的问题。最近的研究表明,挖掘硬底片有利于学习鲁棒的深度人物表示[11,28]。此外,另一个损失函数,即将人的图像直接分类为自己的身份类别的分类损失函数,仍然非常有用[20]。深度重新ID网络可以提供出色的全局深度人员表示。但是,由于人的检测不准确,人的姿势变化等原因,仍然需要为人的re-ID对齐和匹配可区分的局部特征。要实现此目标,可以采用不同的方法,例如使用空间注意[38]进行明确的特征对齐和匹配。并使用LSTM [4]显式进行特征对齐或通过找到最短路径进行对齐[36]。

  通过回顾当前人的re-ID研究工作,我们可以发现,由于问题的挑战,至少存在以下问题需要处理:(1)损失函数的选择; (2)错位问题; (3)发现有区别的局部特征; (4)如何在排序损失函数优化的过程中对训练样本进行抽样。在目前的人re-ID研究工作中,很少有人在同一框架内解决所有这些问题。因此,在本文中,我们提出了一个统一的人re-ID深度网络Mancs,以同时解决上述问题。

  Mancs具有以下构建基块。它具有骨干网,例如ResNet-50,可为输入的人图像提取深层功能层次结构。 骨干网络受排名损失和分类损失的监督。排名损失是三重损失;我们提出了一种新颖的课程抽样策略来训练三重态损失。课程抽样方法是由课程学习[5]推动的,该课程通过从简单到困难的示例抽样来帮助培训网络。分类损失是一种焦点损失,已被证明有助于检测密集物体[22]。为了解决不对齐问题并定位可区分的局部特征,我们提出了一个新的完全注意块(FAB),该块创建通道方向和空间方向的注意信息,以挖掘有用的特征用于re-ID。为了更好地了解我们网络中的FAB,我们进一步建议使用深度监管思想[14],为每个FAB添加分类损失函数。因此,分类损失函数称为注意力损失。最后,将三元组损失,焦点损失和注意力损失结合起来,以多任务方式训练我们的人员re-ID网络。

  在实验中,我们研究了三个大型人员re-ID数据集上的Mancs,它们分别是Market-1501 [39],CUHK03 [18]和DukeMTMC-reID [43]。结果清楚地证明了新提出的课程抽样的三重态损失受深度监督的全注意力块焦点损失以及统一的多任务学习框架的贡献。此外,Mancs在所有数据集上都比以前的最新技术获得了更好的精度。

2 Related Work

注意网络。近来,许多作品已经采用注意力深度学习方法来解决人重新识别中的错位问题。通常,他们使用其他子网来获取感兴趣的区域并从这些关注区域中提取特征。 MSCAN [15]使用空间变换网络(STN)[13]来获取几个关注区域,然后从这些区域中提取局部特征。 HA-CNN [20]结合了软注意力方法和硬注意力方法。除了获得硬注意力区域之外,他们还依赖于通道方式的注意力和空间方式的注意力,这是对先前的硬注意力的补充。 CAN [24]将注意力方法与LSTM结合在一起,以获得整个图像的歧视性注意力特征。提出的Mancs采用1×1卷积来获取具有相同特征图形状的注意蒙版。

公制学习。它广泛用于学习图像嵌入,例如[3、4、6、28、36、41]。在人脸识别中,[28]使用三重态损失将负对进一步推动并拉近正对。除了三联体损失外,对比重度损失[41]和四重性损失[6]也用于人员重新ID任务。对于三重丢失,在线硬示例挖掘(OHEM)很重要,即选择最远的正面示例和最远的负面示例进行训练。在提议的Mancs框架中,我们以课程方式对训练示例进行抽样。

多任务学习。由于度量学习和表示学习都可以应用于人员重新识别任务,因此[4,10]将softmax损失与三重损失相结合以训练模型以实现鲁棒的性能。 [1]采用两个损失,但将其分为两个阶段。提出的Mancs结合了焦点损失和三重态损失,并且可以端到端的方式进行训练。

3 Method

在本节中,我们通过首先描述训练框架及其构建块,然后描述多任务学习策略,最后描述推理网络,来呈现提出的Mancs人re-ID框架。

3.1 Training Architecture

训练的网络体系结构如图1所示。基本上,它具有三个主要部分。 骨干网,注意模块和损失函数,描述如下。
在这里插入图片描述
骨干网用作多尺度特征提取器。 在不失一般性的前提下,在这里我们应用流行的ResNet-50。 如图1所示,我们使用conv-2,conv-3和conv-4特征图来生成注意蒙版,这些关注蒙版被重新添加到主流中。 最后一个conv-5特征图用于生成最终人员身份特征。

3.2 Fully Attentional Block

在这里插入图片描述
注意在人重新识别中非常有用,这在先前的研究中已经得到证明[15,16,20]。根据我们的理解,注意力可以集中在最有区别的人重新局部识别区域。为了充分说明注意的用法,我们提出了一个完全注意块(FAB)。 FAB受到最近的挤压和激发网络(SENet)[12]方法的启发,该方法说明了特征图的不同通道在指定对象中扮演着不同的角色。考虑到这一点,SENet中的SE块(图2(a))利用了通道的优先级,并对特征图的每个通道赋予了加权系数。但是,最初的SE块仅在通道方向上重新校准特征响应,而由于使用全局池化而忽略了空间方向的响应,这会导致丢失空间结构信息。为了解决这个问题,建议的FAB丢弃池化层,并使用1×1卷积层而不是完全连接的层来重新获得空间信息。因此,我们可以获得与输入特征图大小相同的注意遮罩(attention mask),该注意模型称为完全注意块。 FAB在图2(b)中进行了说明,其公式如下。
给定卷积特征图Fi,其注意力图计算如下:
在这里插入图片描述
其中两个Conv运算符是1×1卷积。 内部Conv用于挤压,外部Conv用于激励。 在获得关注图M之后, F i F_{i} Fi的输出特征图计算为:
在这里插入图片描述中运算符∗和+以元素方式执行。 这意味着将注意力引起的特征图添加到原始特征图中以强调区分性特征。 值得一提的是,由于FAB不会更改卷积特征图的大小,因此建议的FAB可插拔并可应用于任何现有的CNN。

3.3 ReID Task #1: Triplet loss with curriculum sampling

排名损失对于人员re-ID深度网络来说是必不可少的,因为它具有比收缩/分类损失更好的泛化能力,尤其是在训练数据集不够大的情况下。 因此,我们首先将具有三重态损失的排名分支引入模型。 为了清楚地描述所提出的三元组损失方法,我们将三元组损失的图像 I i I_{i} Ii的特征表示为 f r a n k ( I i ) f_{rank}(I_{i}) frankIi,其中 f r a n k ( . ) f_{rank}(.) frank

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值