Feature Mask Network for Person Re-identification

1 篇文章 0 订阅

Feature Mask Network for Person Re-identification

论文:Let Features Decide for Themselves: Feature Mask Network for Person
Re-identification,cvpr,2018.

链接:paper

代码:github

摘要

虽然大多数方法侧重于学习特征和度量以获得更好的表示,但我们假设局部和全局上下文线索对于准确的身份匹配至关重要。为此文中提出了一种特征掩码网络(FMN),利用ResNet高级特征来预测特征映射掩码,然后将其施加到低级特征上,以动态地重新加权不同的对象部分来实现本地感知的特征表示。这是一种有效的注意力机制,允许网络选择性地把注意力集中在局部细节。给定人的再识别与分类和检索任务的相似性,我们将网络训练框架化为多任务目标优化,进一步改进了学习到的特征描述。我们在Market-1501、DukeMTMC-reID和CUHK03数据集上进行了实验,其中所提出的方法在mAP测量方面相对于现有技术分别实现了5.3%、9.1%和10.7%的显著改进。

Introduction

目前行人重识别问题可分为两大主流:1)研究有区分性的度量方法;2)设计网络来得到有区分性的鲁棒特征表示。在文中提出了一种自动的方法,使用神经网络学习注意力集中在局部细节特征和全局图像描述上的,这有助于算法过滤掉一些不相关的图像部分,并集中关注更有价值的区分性的线索的区域。我们利用已经学习的全局鉴别特征作为指导和动态选择机制来为局部特征表示分配不同的重要性权重。

本文主要贡献如下:

  • 提出了一种特征掩码网络(FMN),它可以动态地处理图像中的局部细节,并将其与全局表示一起使用,以改进行人的重新识别。
  • 提出了一个多任务公式,它优化了分类和成对排序损失,以学习高度鲁棒的特征描述。
  • 所提出的方法易于实现,训练效率高,同时在所有三个基准数据集上的性能始终优于state-of-art方法。

网络结构

该方法基于这样一个命题,即一个成功的人再识别系统需要重视行人的全局和局部辨别方面,行人的图像是使用多个监控摄像机从不同的视角获取的。为此,引入了一种新的基于CNN的深度学习架构,该架构学习关注一个人的全局和局部线索,这些线索有助于对其进行重新识别。网络结构如下:
在这里插入图片描述
整个网络由三个主要部分组成,分别为:1)全局表示网络(GRN);2)混合网络(MN);3)局部注意力网络(LAN)。

全局表示网络对应于输入图像的整体特征表示,网络使用和Resnet50 类似的残差网络结构。混合网络为来自于全局表示网络的初始化层输出预测局部特征的掩码权重,该模型由一个变换层和一个mixer 组成,变换层将全局特征表示的最后一层的输出(1x2048)做一个全连接变换变为(1x3136),之后是一个reshape 模块和mixer 模块,reshape模块将变换后的向量(1x3136)reshape成56x56 大小的掩模矩阵,mixer执行局部特征表示和掩模权重之间的元素积。局部注意网络学习局部注意力特征,这些特征可以为一个人的身份匹配提供有用的线索。

1.Mask Computation(掩模计算)

在残差网络中,MN对来自更高层(在我们的情况下是最终完全连接层)的全局特征表示g∈Rm 和来自更低层(在我们的情况下是第一个残差块的输出)的局部特征表示f∈Rn进行操作。由于来自CNN低层的特征表示被表示为彩色图像的多个2D激活图,因此我们可以更方便地将它们的维度表示为:n = h × w × c,其中h、w和c分别表示特征通道的高度、宽度和数量。

首先将全局表示特征的最后一层的特征图(最终完全连接层 1x2048)进行全连接变换,公式为:
在这里插入图片描述

σ表示ReLU激活函数,g表示最后一层特征图,W为变换权重矩阵。

因为我们的目标是关注空间域中的局部特征,所以我们使用相同的预测特征掩码对f中的所有特征通道进行相同的重新加权。之后将 m’ 变换形状,并且进行幂运算,并将它和GRN 中的低层特征图(第一层卷积的输出)进行像素乘积。
在这里插入图片描述

经过上述公式计算后,就得到局部特征网络的输入。

2.Classification and Ranking(分类和排序)

网络分为两个阶段训练,首先,训练GRN网络预测行人身份,使用在ImageNet 数据集上处理的Resnet 模型,然后进行特征任务的微调。之后,GRN 权重表示固定,MN 和 LAN 权重在下一阶段进行联合学习。类似于第一阶段,第二阶段训练也使用行人身份作为标签来训练。与通过GRN学习的全局表示相反,第二阶段训练集中在局部区分信息上,并使用MN适当地转移注意力,以获得互补的特征表示。GRN 和LAN 都使用分类损失(交叉熵损失),

在这里插入图片描述

p为预测,y 为真值。

但softmax损失不直接考虑排名误差。因此,在第二阶段的联合网络训练中,在LAN 排名损失的基础上加上损失定义如下:

在这里插入图片描述

m 代表边界, P t G 和 P t L P^G_t 和 P^L_t PtGPtL代表GRN 和LAN 的预测概率。

rank loss 使LAN 对正确标签进行更好的预测。

3.Image Descriptor

测试时,通过融合GRN 和 LAN 的特征来表示最终图像的特征。融合方式如下:

在这里插入图片描述

对单个网络的最终特征进行归一化,然后加权拼接。

对得到的特征在图库中进行检索,将检索到的结果进行初始排序。

4.Re-Ranking(重排序)

基于上述步骤进行后的初始排序,我们执行重新排序步骤以进一步提高重新识别性能。重新排序步骤发现初始排序中的关系,以去除虚假匹配并获得改进的列表。在重新排序中使用了K 倒数最近邻。根据定义,如果使用其中一个图像的搜索将第二个图像排在前k个图像中,则两个图像是倒数最近的邻居。这减少了重新排序列表中的误报,从而显著提高了性能。

重新排序过程以无人监管的方式运行。具体地说,通过计算倒易相邻关系,使用图库为每个图像计算k倒易特征。给定一个查询图像,这个图像特征描述被用来寻找与图库的相似性的图片。注意,使用Jaccard相似性度量代替欧式距离 被用于匹配k-倒数特征。最终距离是通过两个距离度量的聚合来计算的。值得注意的是,重新排序过程在很大程度上依赖于使用我们提出的网络架构计算的特征。有缺陷的特征表示会导致性能下降或重新排序。在我们的例子中,使用重新排序方法的性能提升显示了我们建议的特性描述的强度。

重排序算法不太懂,文中利用了 Z. Zhong, L. Zheng, D. Cao, and S. Li. Re-ranking person

re-identifification with k-reciprocal encoding. 2017. 这篇文章的重排序算法

实验

文中在Market1501、CUHK03和DukeMTMC-reID 三个数据集上进行了实验。

与各算法的对比如下:
在这里插入图片描述

总结

一个人只占输入图像的一部分,全局场景描述不足以进行准确的身份匹配。在这项工作中,我们为CNN提出了一个混合架构,它同时学习关注输入场景中更有区别的部分。给定一个全局特征,我们直接预测用于在特征空间中重新加权局部场景细节的注意力掩模。这种策略允许灵活地将注意力重新集中在局部细节上,这对于预测一个人的独特身份非常有价值。局部感知特征描述导致高度紧凑和互补的特征表示,其与全局表示一起在三个大规模数据集上实现高度精确的结果。当提议的特征与重新排序策略一起使用时,观察到显著的提升,证明了提议的特征对正确编码人身份之间的相互关系的强度。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值