目标追踪与定位学习笔记1-行人再识别问题的分析和总结

1. ReID问题综述

ReID(Person Re-Identification),行人再识别,给定一个监控行人图像,检索跨设备下的该行人图像,目标是弥补固定摄像头的视觉局限,并可以和行人检测/行人跟踪技术相结合。简单来说是跨非重叠摄像头的特定人检索问题。
ReID问题的识别流程:原始数据收集->边界生成->训练数据注释->模型训练->行人检测
当前问题存在的难点:存在不同视点,不同的低图像分辨率、照明变化、不同姿态约束遮挡、异质模式、复杂的相机环境、背景杂波、不可靠的边界框生成。

2. ReID的方法

基于部件匹配的方法:

  • 水平切割,用简单的水平条一一比对;
  • 在邻域中做匹配,可以采用一个正方形的领域;
  • 先在人体上检测部件再进行匹配,这样可能会引入检测部件的误差;
  • 以pair输入进行LSTM的匹配,但是因为测试时间太长而不利于快速检索;
  • 先使用STN将行人整个图像用热度图对其再进行匹配。

基于损失函数的方法:(当前研究比较广泛的方法)

  • 身份损失,可以看成多分类的问题;
  • 鉴定损失:比较输入图像是否为同一个人
  • 身份损失+鉴定损失:将以上两种结合起来
  • 三样本损失:以三个样本为一组,同一人的图像特征距离应小于不同人。
  • 加入属性任务 ,即结合辅助特征:这样需要额外标注信息(语义属性)或生成增强的训练样本来强化特征表示。
  • 数据增强,混合多数据集进行训练,加入训练集上生成对抗网络生成的数据。

3. 常用数据集

静态数据集:

Market1501DukeMTMC-reIDCUHK03
拍摄地点清华大学Duke大学香港中文大学
图片数量322173644113164
行人数量150118121467
摄像头6810

下图列举出更多的静态数据集:
在这里插入图片描述
动态数据集:
在这里插入图片描述
ReID数据采集特点:跨摄像头数据,一个人多张全身图片,数据集规模小、互联网无法提供有效数据、影响因素复杂多样、大规模收集涉及隐私问题、连续视频截图。
总结起来就是数据获取难度大,算法挑战大。

4. ReID问题分类

4.1 闭区域下的ReID问题

标准的封闭式世界再识别系统包含三个主要的部分:
​特征表示学习:侧重于开发特征构建策略​
深度度量学习:用不同的损失函数或采样策略设计训练目标
排名优化:优化检索到的排名列表

4.1.1 特征表示学习

主要分为四类: 全局特征 局部特征 辅助特征 视频特征
全局特征:为每个人图像提取了一个全局特征表示向量,不需要额外的标注线索。
为捕获全局特征学习中细粒度线索,有一种由单一图像表示(SIR)和交叉图像表示(CIR)的联合学习框架;广泛使用ID-discriminative Embedding(IDE)模型将训练过程构建为一个多分类问题
局部特征:设计多通道聚合、多尺度上下文感知卷积、多阶段特征分解和双线性池化来改善局部特征学习。
另一种比较流行的解决方案是姿态驱动匹配,姿态引导部分注意模块,语义对其来增强对背景杂波的鲁棒性。
LSTM(Siamese Long-term Memory)架构,二阶非局部注意,IA(Interaction-and-Aggregation)加强特征学习为了捕捉身体多个部位之间的关系。
辅助特征:需要额外的标注信息(语义属性)或生成增强的训练样本来强化特征表示。
​多层次因子分解网(MLFN)、领域引导(DGD):自适应挖掘共享和域特定的神经元,使用GAN生成的图像也是在无监督自适应ReID中广泛使用的方法。数据增强,在输入图像中随机加入特征。
使用语义属性进行视频重标识特征表示学习。在无监督学习中语义属性也被用作辅助监督信息。​
视频特征:主要的挑战是捕捉时间信息。
设计了一种循环神经网络,该体系对时间信息传播和最终循环层和时间池化层进行了联合优化,提出空间和时间流加权的方案。使用语义属性对视频重新标识。进行特征拆分和帧重新加权,联合聚合帧级特征和时空外观信息是视频表示学习的关键。
另一个主要的挑战是不可避免的离群点跟踪视频帧。在空间和时间注意力池网络(ASTPN)中选择信息帧。在中整合上下文信息。基于共同分割的注意力模型通过相互共识估计检测多个视频帧的显著特征。利用分集正则化在每个视频序列中挖掘多个有区别的身体部位。采用仿射壳处理视频序列中的离群帧。有一种方法利用多个视频帧自动完成闭塞区域。这些工作表明,处理有噪声的帧可以大大提高视频表示学习。处理不同长度的视频序列也很有挑战性,Chen等人将长视频序列分成多个短片段,将排名最高的片段聚集起来学习紧凑的嵌入。一种剪辑级学习策略利用空间和时间维度注意线索来产生鲁棒的剪辑级表征。短期和长期关系都被整合到一个自我关注计划中。

结构使用ResNet50,重要的修改包括将最后的卷积条纹/大小改为1,在最后的池化层采用自适应平均池化,在池化层后增加批处理归一化的瓶颈层。
针对不对准和遮挡问题,有一种方法滤波器配对神经网络。
提高精准度:多层因子分解网(MLFN),在优化多级相似度度量方面,有一种具有卷积相似度模块的高效全卷积Siamese网络。
提高效率:将点向卷积和深度卷积结合,全尺度网络(OmniScale network,OSNet)高效小尺度网络。
Auto-ReID是一种高效的自动化神经体系结构设计,使用一个部分感知模块来捕捉判别性的局部ReID特征。

4.1.2 深度度量学习

深度学习之前经常使用马氏距离函数或投影矩阵。现在经常使用损失函数所取代。
广泛使用的损失函数有Identity Loss, Verification Loss, Triplet Loss,下图为图解:
在这里插入图片描述
Identity Loss:主要涉及到交叉熵损失函数。在这里插入图片描述
dij是xi与xj的欧氏距离 δij = 1 说明ij属于同一类 否则不属于同一类。
Verification Loss : 在这里插入图片描述

二分类问题的Verification Loss:在这里插入图片描述
Triple Loss: 在这里插入图片描述
在线实例匹配损失: Online Instance Matching (OIM)
在这里插入图片描述
训练策略:
解决正样本与负样本不平衡的问题,自适应采样是调整正样本与负样本贡献的常用方法,如采样率学习(Sample Rate Learning, SRL)、curriculum sampling或者利用样本相似度或相似度差调整样本权重。

4.1.3 排名优化

要评估ReID系统使用:累积匹配特征(CMC) cumulative matching characteristic
​平均精度 (mAP) mean Average Percision
CMC-k(即Rank-k matching accuracy)表示在排名前k的检索结果中出现正确匹配的概率。当每个查询只存在一个ground truth时,CMC是准确的,因为它在评估过程中只考虑第一个匹配。然而,the gallery set通常包含多个groundtruth在一个大型相机网络中,CMC不能完全反映一个模型在多个相机之间的可辨性。另一个度量,即平均平均精度(mAP),测量了多个ground truth的平均检索性能。它最初广泛应用于图像检索。对于Re-ID评估,它可以解决两个系统在搜索第一个ground truth时表现相同(可能是简单匹配,如图4所示),但对其他困难匹配的检索能力不同的问题。
基本思想是利用不同类之间的相似性来优化初始排序列表。
特征聚合凡是结合部分层次和完整的人体特征。
多重训练可以改善ReID模型的学习。

4.1.3 基于视频的ReID模型

我们回顾深度学习的ReID模型,包括CoSeg、GLTR、STA、ADFD、STC、DRSA、Snippet、ETAP、DuATM、SDM、TwoS、ASTPN、RQEN、Forest、RNN和IDEX。

4.2 开放环境下的ReID模型

此技术包括跨异质模式行人图像再匹配问题,从原始图像/视频的端对端的ReID,有限/无限标签的监督/半监督学习,带噪声标注的鲁棒性的ReID学习,当正确匹配没有在土库中发生时的开放式人员的ReID。

4.2.1 跨异质模式行人图像再匹配问题

主要分为四种情况:ReID between depth and RGB images, text-to-image ReID, visible-to-infrared ReID, cross resolution ReID.
深度图像捕捉身体形状和骨骼信息,这题提供了在光照或衣服变化情况下准确识别的可能性。再强化学习框架中结合卷积和递归神经网络来识别人体的小的有区别的局部区域。还有一种分频RGB到深度的传输方法弥补深度图像和RGB图像之间的差距。
text-to-image ReID 解决文本描述和RGB图像之间的匹配问题。
带有递归神经网络的门控神经注意力模型的使得从文本到图像的全程训练行人检索成为可能。
全局判别图像-语言关联学习方法可以在重构过程中捕获身份判别信息并局部重建图像-语言关联,交叉投影学习方法,利用图关系挖掘设计了一种深度对抗图注意卷积网络。
可见红外ReID:深度零填充学习框架,自适应学习模态共享特征。
分类器层次差异中使用GAN技术生成跨模态的人图像在图像和特征水平上减少了跨模态的差异。 双注意聚焦学习方法来捕捉多层次关系。
级联SR-GAN 结合身份信息以级联的方式生成高分辨率的人物图像。

4.2.2 端对端的ReID

减轻了生成边界框对附加步骤的依赖。包括从原始图像或视频中重新识别人的身份,以及多摄像头跟踪。
NPSM通过充分利用查询和监测到的候选区域之间的上下文信息,递归的细化搜索区域并定位目标人。
一个查询引导的端对端的人员搜索系统使用Siamese挤压和激励网络进行搜索,通过查询引导的区域建议生成来捕获全局上下文信息。
身份判别注意强化学习(IDEAL)方法为自动生成的包围框选择信息区域,提高了重新识别的性能。
通过硬身份挖掘和自适应加权三组学习来学习多目标多镜头跟踪和人重识别之间的相关性。还有一种具有相机内部和相机间关系建模的局域感知外观度量(LAAM)。

4.2.3 有限/无限标签的监督/半监督学习

早期无监督学习主要学习不变成份(字典,度量或显著性),这导致了有限的可辨识性或可伸缩性。
深度无监督学习方法,跨摄像头标签估计。使用动态图匹配。
端到端的ReID提出一种迭代聚类和ReID模型学习,同时样本之间的关系也被运用到一个层次聚类框架中。
racklet Association Unsupervised Deep Learning (TAUDL)框架联合进行相机内的Tracklet关联,并对跨相机的Tracklet关联进行建模。
在一个图关联框架中应用了相机内挖掘和相机间关联。可转移联合属性身份深度学习(TJAIDL)框架也采用了语义属性。
使用新的未标记的数据仍然有难度。PatchNet通过挖掘Patch级别相似性来学习区分性patch特征,自相似分组(SSG)方法迭代的进行分组(利用全局体和局部部件相似度进行伪标记),并以自节奏的方式重新识别模型训练。
融合了深度纹理表示和颜色度量的一次性度量学习方法,基于视频的二次识别逐步单次学习方法(EUG):从未标记的tracklet中逐步选择少量候选轨迹丰富已标记的tracklet集合。
多实例注意力学习框架使用视频级标签进行表征学习,减轻了对全注释的依赖。
ReID在无监督学习的一种流行方法是使用生成的图像,可以在未标记的目标域中进行监督的ReID模型学习。
Person Transfer(PTGAN) 将一个有标记的源数据集的知识转移到没有标记的目标数据集,使用SPGAN来保留自相似性和领域不相似性
一些方法直接从源数据集中使用训练良好的模型来挖掘对未标记目标数据集的监视。范例记忆学习方案采用范例不变性摄像机不变性和邻域不变性作为监督。

4.2.4 噪声鲁棒性的ReID

由于数据采集和标注困难,重新识别往往会遇到不可避免的噪声。我们从三个方面综述了噪声鲁棒性的重新识别:有严重遮挡的部分重新识别,由检测或跟踪错误引起的样本噪声的重新识别,以及由标注错误引起的标签噪声的重新识别。
全卷积网络为不完整的人物图像生成固定大小的空间特征图,引入深度空间特征重构(DSR),利用重构误差避免显式对齐。
可视性感知部件模型(VPM)来提取可共享的区域级特征,从而抑制不完整图像中的空间失调。
姿态导向特征对齐(PGFA)利用姿态标志从遮挡噪声中挖掘出有区别的部分信息。
姿态估计线索或注意线索:抑制噪声区域在最终整体表示中的贡献。
视频序列中集合级特征学习或帧级重新加权是常用的减少噪声帧影响的方法。
问题:标注错误所带来的标签噪声通常不可避免。可以使用标签平滑技术来避免标签过度拟合问题。
对特征不确定性进行建模的分布网络(DNet),用于抗标签噪声的鲁棒Re-ID模型学习,减少了特征不确定性高的样本的影响。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值