综述1 | 弱监督场景下的行人重识别

1. 概念

  • 弱监督:包括无监督场景和半监督场景
  • Re-ID概念:将不同摄像头下相同身份的行人图像进行关联。具体来说,就是用某个查询图像(query image)在一个大的图像数据库(gallery set)中检索和匹配相关图像。
  • Re-ID目标:希望获得具有判别性的特征来区分相同身份和不同身份的行人图像。绝大部分工作都是关注在怎样获取具有判别性的特征上。
  • Re-ID挑战:由于行人图像来自多个不同的摄像头,面临的挑战包括不同摄像头下图像的光照条件、分辨率、视角以及行人姿态等各方面差异。
  • 一个完整的行人重识别系统:应当包括行人检测、行人跟踪和行人重识别技术(person re-identification,简称 Re-ID)这3 个模块。

2. 分类

无监督场景的行人重识别算法,根据其技术类型划分为 5 类:

  • 基于伪标记的方法
  • 基于图像生成的方法
  • 基于实例分类的方法
  • 基于领域自适应的方法
  • 其他方法

半监督场景的行人重识别方法,根据其场景类型划分为 4 类:

  • 少量的人有标记的场景
  • 每一个人有少量标记的场景
  • 基于 tracklet 的学习的场景
  • 摄像头内有标记但摄像头间无标记的场景

在这里插入图片描述

3. 无监督行人重识别

  • 在深度学习时代之前:绝大部分无监督的方法主要借助传统的领域自适应方法来学习共享的模型参数、公共的子空间或字典。这些方法在训练中可以使用有标记的源域数据(source domain)和无标记的目标域数据(target domain)来进行模型参数的学习。除了该设定之外,也有一些方法只使用无标记的数据。

  • 基于伪标记的方法:主要思想是为无标记的数据产生高质量的伪标记来训练和更新神经网络。在无监督行人重识别领域中,该方法已经成为主流的技术路线。该类方法具有思路简单清晰、性能良好的优点,特别是一些基于聚类的伪标记生成方法,可以展现出与有监督学习方法相接近的性能。未来研究方向:该类方法在伪标记生成的准确度以及如何有效利用生成的伪标记等方面仍然存在进一步提升的空间 。
    在这里插入图片描述

  • 基于图像生成的方法:这类方法的思想是从图像层面进行风格迁移,其很大程度上依赖于生成对抗网络所生成图像的质量。从监控摄像头获取的行人图像往往质量较低并且存在一些噪声,导致风格转换后图像的质量并不高,因此该类方法在无监督场景下的性能提升并不是很理想。未来研究方向:需要进一步研究更加适合于行人场景的生成对抗网络来解决该类问题。
    在这里插入图片描述

  • 基于实例分类的方法:非参数化实例分类的方法考虑到在分类任务中,外表相似的类别与外表相似性较小的类别相比有一个更大的预测概率值,这说明这些相似的类别在特征学习网络中存在潜在的相关性,因此该方法将所有独立的样本当作一个单独的类别来训练网络。该类方法旨在关注如何得到更好的邻近关系 r 来学习模型(如果 x 和 xj 被判定为邻近的样本则r为1,否则为0)。未来研究方向:考虑如何采用有效的算法更加精确地进行样本关联度匹配。
    在这里插入图片描述

  • 基于领域自适应的方法:研究工作沿用了传统的领域自适应的架构,即考虑消除或减少领域间的差异来将判别性的信息从源域迁移到目标域中。由于从数据分布的视角来解决无监督行人重识别问题是一种间接的处理方法,因此该类方法与基于伪标记的方法和基于实例分类的方法相比,在性能方面稍有些不足。但是与基于图像生成的方法相比,该类方法的性能更好。因此,这说明了在行人重识别问题中,从特征层级的迁移效果要比从图像层级的迁移效果更好。
    在这里插入图片描述

无监督小结

(1)样本选择:在深度学习时代,大部分无监督深度行人重识别方法,一般会使用有标记的源域样本和无标记的目标域样本进行训练模型。

  • 基于伪标记的方法和基于实例分类的方法一般使用有标记的源域的数据进行模型预训练,然后使用无标记的目标域数据进行无监督学习;
  • 基于图像生成的方法一般通过将源域中的图像转化成目标域风格的图像,然后再使用这些图像来训练模型;
  • 基于领域自适应的方法旨在减少领域间数据分布的差异,通过特征的层级来对齐源域和目标域的数据分布,以将源域中的判别性信息迁移到无标记的目标域中。

(2)性能强弱

  • 基于图像生成的方法和基于领域自适应的方法相较于基于伪标记的方法和基于实例分类的方法表现性能相对较弱,主要原因可能是基于图像生成或领域自适应的方法可以看作是从数据分布的层级来解决无标记的学习问题。
  • 基于图像生成的方法旨在缩小源域和目标域图像分布间的差异,而基于领域自适应的方法是从特征表示的层级来缩小领域间的差异。这些方法属于隐式地解决无标记的问题。
  • 而基于伪标记或实例分类的方法是显式地通过对无标记的数据直接产生伪标记或者是建立这些样本间的关联来进行学习。

4. 半监督行人重识别

  • 少量的人有标记
  • 每一个人有少量标记:在现实应用中该方法并不可行。因为如果需要知道整个数据集行人的数量,就必须要对整个数据集进行标注,因此针对该类场景的研究方法较少。
  • 基于 tracklet 的学习:tracklet即目标在一个时间段内的位置序列中的小段轨迹。主要是使用 tracklet 信息作为部分的标记信息来执行学习任务。
  • 摄像头内有标记,摄像头间无标记:标记摄像头间的信息需要花费大量的成本,而摄像头內的标记信息可以借助于跟踪算法和少量的人工标记即可完成。

5. 数据集

数据集分为两类:基于图像的数据集、基于视频的数据集

  • 图像数据集:主要包括Market1501,DukeMTMC-reID,MSMT17 和 CUHK03,这些数据集既可以用于无监督任务,也可以用于半监督任务。
    在这里插入图片描述
  • 视频数据集:除了较早出现的 PRID2011 和 iLIDS-VID 以外,主要包括 MARS,DukeMTMC-SI-Tracklet 和 DukeMTMC-VideoReID,这些数据集常用于半监督任务。
    在这里插入图片描述

数据集通常是通过人工标注或者检测算法得到的行人图片。包括训练集、验证集、Query、Gallery。Query包含一些Probe,Gallery是图像检索库。在训练集上进行模型的训练,得到模型后对Query和Gallery中的图片特征提取计算相似度,对于每个Query在Gallery中找出前N个与其相似的图片。训练和测试中的人物身份不能重复。

6. 评价指标

对于行人重识别算法的性能,通常使用累积匹配特性(cumulative match characteristic,简称 CMC)曲线、平均精度均值(mean average precision,简称 mAP)作为评价指标。

  • CMC曲线:CMC 曲线能够综合反映分类器的性能,可以表示匹配目标出现在大小为 k 的候选列表中的概率。直观上, CMC 曲线可以通过 Rank-k 准确率的形式给出,即目标的正确匹配出现在匹配列表前 k 位的概率。在行人重识别问题中,通常关注 k={1,5,10,20}时的性能。然而,当测试集中存在多个正确匹配时,Rank-k 准确率不能完整地对算法进行评估。
  • mAP:在考虑查准率的同时,应当同时考虑查全率。mAP反应检索的人在数据库中所有正确的图片排在排列顺序列表前面的程度。mAP 的计算过程需遍历所有检索目标,对于每个检索目标分别计算 AP(average precision)并取平均,而 AP 的计算过程即为求 PR(precision-recall)曲线下的面积的过程,即考虑了目标在某些阈值下的查准率和查全率。
  • mINP:
    在这里插入图片描述在这里插入图片描述

小结:在后续工作中,通常将 mAP 与 Rank-k 准确率结合在一起作为行人重识别问题的评价指标,这样能够达到对算法性能进行全面评价的目标。

7. 评价模式

  • single shot vs multi shot:single shot指的是在gallery中每人的图像只有一张,multi shot 指的是gallery中每个人的图像为N张。
  • single query vs multi query:single query是指probe中每个人的图像为一张;multi query是指probe中每个人的图像由有张,这N张图片经过最大池化后者平均池化融合特征后,最为一张图再去检索。
  • 通常,评价ReID模型的性能,采用single shot + single query模式。最难,最接近实际的评价。

8. 展望

该领域虽然在近年来得到了一定的关注,但目前仍然不能完全达到有监督场景下的性能。该领域仍然有一些研究问题亟待解决:

  • 实例间的关系评估:基于实例分类的无监督方法在近年来得到了广泛的关注,但其主要的挑战集中在如何有效地挖掘每个样本之间的实际关系,即:以一对样本而言,观察它们是否属于相同的类别。如果所有样本之间的关系能够被很好地评估,那么这一类方法的性能将等价于有监督场景下的行人重识别任务的性能。
  • 领域泛化问题:弱监督场景下的行人重识别算法仍然需要收集无标记的样本来学习。在将来,通用性的行人重识别算法也许是该领域能够真正落地的一大发展趋势,即:只通过在现有的数据进行训练,就能够很好地泛化到其他未见场景中。这也是实现通用人工智能技术的必要的一条路。这一类问题结合风格迁移元学习的相关方法或许有出很大的前景。

参考文献:http://www.jos.org.cn/1000-9825/6083.htm




自我感觉适合研究的方向有:

① 考虑如何提高伪标记生成的准确度以及如何有效利用生成的伪标记。

② 考虑如何采用有效的算法更加精确地进行样本关联度匹配。

③ 基于 tracklet 的学习。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值