Deep Learning for Person Re-identification A Survey and Outlook

此篇综述概括范围较广,对ReID领域的分析也较为透彻,具有较大的参考价值。

行人重识别被分为了开放世界和封闭世界两类,文章从深度表征学习、深度度量学习、排名优化三个方面对封闭世界的行人重识别进行了深度的分析,并阐述ReID正在转向开放世界。文章还提出了一个AGW基准和mlNP评估指标。

目录

介绍

封闭世界的ReID

开放世界的person ReID

展望


介绍

ReID的目的是确定一个被摄像头捕获的人是否在不同的时间出现在另一个地方。随着时代的需求与技术的进步ReID越来越火热。ReID主要面临的困难包括:分辨率、光亮的变化、不受约束的姿态、遮挡、多模态等等。整篇文章主要包括三点贡献:

1、对先有的深度学习技术进行更深层次更全面的分析。

2、设计了一个新的AGW基准和一个新的评估指标mINP。

3、通过调查不足的开放问题,将封闭世界和开放世界的应用之间的差距缩小,对于真实世界的ReID系统的设计取得了一小步的进步。

建立一个特定场景的ReID通常需要五个步骤:

1、原始数据集的收集。

2、边界框的生产。

3、训练数据的标注。

4、模型训练。

5、行人检索。

从五个方面进行封闭世界和开放世界的ReID的对比:

1、单模态vs多模态 

2、边界框的生成vs原始图片或者音频 

3、充足的标注数据vs不可靠的具有限制性的标签 

4、正确的标注vs噪音标注

5、gallery中存在query vs 开放世界

特征学习策略主要包括4中:

1、全局特征 2、局部特征 3、辅助特征 4、视频特征

封闭世界的ReID

这一节主要介绍表征学习、度量学习、排名优化、数据集和评估。

表征学习:

主要包括全局特征、局部特征、辅助特征、视频特征

全局特征:最初应用深度学习图片分类的技术,目前注意力方案也被广泛研究用来增强表征学习。注意力也主要包括对人物图像的注意力和跨多个人物图像的注意力。

局部特征学习:相对于错位变化,通常学习局部聚合特征。身体部位是由姿态估计或大致水平划分。

辅助表征学习:通常需要额外的标注信息(语义属性)或者生成/增强训练样本来加强表征学习。主要包括:语义属性、角度信息、域信息、产生/增强(主要是用GAN网络生成图片作为辅助信息)

视频特征表示学习:在视频中,每个人都由多个多帧的视频序列表示。由于丰富的外观和时间信息,ReID领域越来越火热,这也给多图像视频特征表示学习带来了挑战。自从视频序列总是包含不可避免的离群跟踪帧,使用注意力方案也是一个流行的方法来消除影响。利用多视频帧来自动完成遮挡区域。尤其是,一个时空完成网络被设计 从没有被遮挡的多帧来产生被遮挡的身体部位,这个方法增强了相对于遮挡的鲁棒性。这提 供了一个具体应用的解决方案来处理在视频 ReID 中遮挡问题的挑战。大多数存在的工作采用为图片分类设计的网络架构作为骨干网络。一些工作尝试修改骨干网络结构来实现更好的 person ReID 特征。被广泛应用的 ResNet50 骨干网络,重要的修改包括将最后的卷积步伐大小修改到1,在最后一个池化层使用适用性的平均池化,在平均池化层后加入批量归一化的瓶颈层。

深度度量学习:在深度学习时代之前,通过学习马氏距离函数[25]、[26]或投影矩阵[29],度量学习已经得到了广泛的研究。度量学习的作用已经被损失函数设计所取代,以指导特征表示学习

三个损失函数:身份损失、验证损失、三元组损失

身份损失:他将 person ReID 训练过程视为一个图像分类问题[46],每个身份都是一个不同的类。在测 试阶段,池化层或嵌入层的输出作为特征提取器。给定一个带有标签 yi 的输入图像 xi,xi 被识别为 yi 类的预测概率用一个 softmax 函数进行编码,用 p(yi |xi)表示。然后通过交叉熵计算损失。

损失函数:

Triplet Loss是一种三元组损失函数,其基本思想是将同一身份的样本尽可能地靠近,将不同身份的样本尽可能地分开。在Triplet Loss中,对于每个查询样本,需要找到同一身份的正样本和不同身份的负样本,并使得正样本距离查询样本的距离小于负样本距离查询样本的距离加上一个预设的间隔值。Triplet Loss的优化目标是最小化所有三元组的损失函数。

Contrastive Loss是一种对比损失函数,其基本思想是将同一身份的样本尽可能地靠近,将不同身份的样本尽可能地分开。在Contrastive Loss中,对于每个查询样本,需要找到同一身份的正样本和不同身份的负样本,并使得正样本距离查询样本的距离小于负样本距离查询样本的距离。Contrastive Loss的优化目标是最小化所有正样本距离查询样本的距离和所有负样本距离查询样本的距离加上一个预设的间隔值之和。

排名优化包括:重排序、query自适应、人类交互,重排序和人机交互主要思想是利用相似度进行一个排名。

评估指标

为了评估一个 Re-ID 系统,CMC 和 mAP 是两种被广泛使用的测量方法。

CMC-k(即 Rank-k 匹配精度)表示在排名前几的检索结果中出现正确匹配的概率。当 只有当每个 query 只存在一个基本真实值时,CMC 是准确的,因为它只考虑评估过程中的第一个匹配。然而,在一个大型摄像机网络中,图库集通常包含多个真实标注数据,CMC 不能完全反映一个模型在多个摄像机之间的可辨别性。另一个被广泛应用的指标是 mAP, 测量多个真是标注的平均检索性能。它最初被广泛地应用于图像检索中。对于 Re-ID 评估,它可以解决两个系统在搜索第真是标注表现相同的问题(可能很容易匹配,如图 4 示),但 相对于其他硬匹配具有不同的检索能力。我们观察到,表 2 中最近收集的数据集同时使用了 mAP 和 CMC 作为评估指标。

开放世界的person ReID

这一小节细节的地方太多,概括的说开放世界的ReID在本篇文章中讨论的主要包括:包括通过匹配跨异构模式(3.1)的人图像的 异构 Re-ID、来自原始图像/视频(3.2)的端到端 Re-ID、具有有限/不可用注释标签的半/ 无监督学习(3.3)、具有嘈杂的注释(3.4)的鲁棒 Re-ID 模型学习,以及在图库中没有出 现正确的匹配(3.5)时的开放集的人 Re-ID。

展望

这一节主要提出mINP和AGW,并且分析一些调研还不太充足的开放问题。

考虑到目标人不应该在多个摄像头检索的 top-ranked list 中被忽视。最难正确匹配的排名位置决定了检查员的工作量。然而,目前广泛使用的 CMC 和 mAP 指标并不能评估这一特性。这个度量评估检索最难正确匹配的能力,为测量 Re-ID 性能提供了一个补充。

AGW新基准是在BagTricks[151]之上设计的,并且AGW包含了三个主要的改进组件:非局部注意力块、广义平均池、加权正则化三元组损失。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值