综述2 | 基于深度学习的行人重识别

1. 概念

  • 行人重识别深度学习模型相关研究主要聚焦于如何提取更具判别性的特征表示

2. 有监督学习

  • 有监督学习能充分利用标注数据,提取有较强判别能力的特征表示,因而能在行人重识别问题中取得较高的准确率。

2.1 基于图像的有监督学习

  • 基于图像的行人重识别研究,图像特征提取方式可分为全局特征提取局部特征提取两大类。
  • 全局特征提取:一般做法是将完整图像输入卷积神经网络( convolutional neural network,CNN) 进行提取,在目标遮挡时使用全局特征提取难以取得理想效果。
  • 局部特征提取:是指提取目标图像中更为重要的局部区域特征。传统低级视觉特征提取方法主要提取图像边缘信息,基于深度学习的局部特征提取方法则包括行人图像分割、基于姿态提取局部特征等。

2.2 基于视频的有监督学习

  • 视频数据的优点: ① 图像序列可以捕捉与行人运动相关的时序信息( 步态、形体变化规律等) ; ② 图像序列中丰富的视角信息允许建立更好的人物外观模型,而且大量样本会使模型训练更容易。当然也面临其他一些挑战,如在可变长度或不同帧速率的图像序列上,如何构建时序模型、如何进行特征聚合。
  • 充分利用图像序列的时序信息:循环特征聚合网络、门控循环网络、双向循环神经网络等。
  • 图像序列特征聚合:池化是一种常用的图像序列特征聚合方法,具体做法是从视频图像序列每一帧中提取一个特征向量,然后对所有帧中提取的特征向量进行池化操作。

3. 半监督学习

  • 概念:半监督学习( semi-supervised learning,SSL) 是监督学习与无监督学习相结合的一种学习方法,旨在利用少量标注数据提取有效特征,以获得与有监督模型接近甚至相同的结果。
  • 问题:如何通过少量标注的行人图像提取有判别性的特征表示,并为大量未标注数据打上准确的伪标签以进一步优化模型的特征提取,是半监督学习目前要解决的问题。
  • 补充:对未标注数据进行有效采样的方法尤为重要,常用的半监督学习方法有字典学习、协同训练等。

4. 弱监督学习

  • 概念:弱监督学习( weakly supervised learning) 是一个总括性的术语,Zhou将弱监督学习分为不完整、不确切和不准确三种。利用弱监督学习减轻数据标注代价,同时提高模型泛化能力。
  • 特点:不同于半监督学习与监督学习模型常用的图像级标签,弱监督通常采用包级标签,即对给定的多个小的图像集作标注,且标注信息不需要十分精准,即通常说的弱标注。与完全标注数据相比,弱标注数据会缺乏每个人的详细特征,但它提供了行人之间的特征依赖性,因而有助于解决跨摄像头的行人重识别任务。

5. 无监督学习

  • 概念:无监督学习( unsupervised learning)主要通过学习未标注样本来解决行人重识别问题。由于缺失标注信息,此类模型在学习行人特征表示时面临更大挑战。
  • 迁移学习( transfer learning) 也是一种常用的无监督学习方法,具体做法是将基于其他数据集训练的模型迁移至缺少标签信息的目标数据集,以解决行人重识别问题。

6. 生成对抗网络

  • 概念:生成对抗网络( generative adversarial network,GAN) 可以通过生成器与判别器间的博弈产生较为真实的样本,扩充训练数据集,因而能有效解决行人重识别面临的样本数量不足问题。
  • 特点:行人重识别首先要解决在低分辨率图像中获取有效行人特征表示这一难题。Wang 等人将此类任务命名为 尺度自适应低分辨率行人重识别( SALR-REID) 并提出了级联超分辨率生成对抗网络( CSR-GAN) ,将各种低分辨率行人图像有效转变为统一的高分辨率图像。

7. 注意力机制

  • 概念:注意力机制的本质是模仿人类视觉信号处理机制,即选择性地观察一部分,同时忽略其他可见信息。
  • 分类:针对行人重识别问题,根据关注重点的不同,可以将注意力机制分为时间注意力机制与空间注意力机制两种。时间注意力机制主要关注输入图像序列的哪幅图像更重要,而空间注意力机制则主要关注某幅具体图像中哪部分更关键,可以获得更有区分力的特征信息。
  • 特点:从本质上讲,时间注意力机制更适用于基于视频的行人重识别问题。Li 等人提出了一种时空注意力模型,使用多个空间注意力模型和多样化的正则项来确保各个空间注意力模型学习身体的不同部分,在此基础上通过时间注意力模型将序列中的图像特征进行融合,很好地解决了视频序列中行人遮挡以及未对齐等问题。

8. 评价指标

行人重识别任务常用的评价指标包括:累计匹配曲线(CMC) 和平均精度均值( MAP) 等。

  1. CMC反映了分类识别模型的综合性能,CMC 中横坐标的 rank 表示的是正确率。rank1指的是输入一个query,检测结果第一张结果正确。CMC就是rank1,rank2,rank3…的折线图。
  2. MAP是多标签图像分类问题中常用的评价指标,P 是精确率,指的是所预测的正类样本中有多少是真的正类;
  • AP 指的是对给定查询实例,模型所预测的正例 top1 ~ top10 中 P 值的平均值,AP只计算所有返回的判断正确的图像,AP=该图像在所有正确图像的排序 / 该图像在所有返回图像中的排序,求和,除以返回正确的图像的个数;
  • MAP 是对所有类别 AP 值的平均值。
  • AP 衡量的是模型在每个类别上的性能好坏,MAP 衡量的是模型在所有类别的平均性能,其值均以百分比形式呈现,越接近 100% ,表示重识别效果越好。

9. 损失函数

  • 通常是分类损失+ Triplet loss(目标其实就是为了让特征提取的更好)
  • Triplet loss需要准备3份数据,其中Anchor代表当前人的图像数据,Positive代表该人的另一张图像数据,Negative代表其他人的一个图像数据。我们希望A和P相似性比较近,A和N相似性比较远。
  • Triplet loss: L(A,P,N) = max(||f(A)-f( P)|| - ||f(A)-f(N)|| + a, 0)。只有前面的式子大于0才进行学习。其中,a叫做margin,间隔,表示AP之间要比AN之间最少相差多少。
  • 实际应用中,最多的是hard negative方法,选择样本的时候让AP约等于AN(P选最不像的,N选最像的),给网络一些挑战。

10. 未来研究方向

  1. 特征表达能力的提升。提高行人重识别性能的核心依然是提取更加有效的特征表示。① 由全局特征提取到局部特征提取的转变对模型的提升作用非常明显,因此如何高效地提取有效的局部特征表示仍然是今后的研究热点;② 可以利用时序等附加语义信息来构建更加细节的特征表示。③ 构建数量更大、质量更好的数据集,帮助模型提取更加有效的特征表示也是可行的,GAN 的存在也为解决行人重识别面临的数据集规模不够以及图像分辨率不高等问题提供了新思路。

  2. 半监督、弱监督学习模型。未来基于半监督学习的模型应致力于如何有效利用更少的标注数据与庞大的未标注数据来获得更有效的行人特征表示;弱监督学习减轻了数据集标注代价,但需要模型从较为模糊的标签信息中对行人进行有效分类。弱标注数据中包含了行人间隐含的关联信息,因此提取图像特征联合挖掘人际关系也可以更加高效地解决行人重识别问题。

  3. 无监督行人重识别模型。无监督学习模型无须标注数据,模型不知道如何学习判别性的特征表示。如何为行人图像寻找一个有效的特征映射空间是无监督学习模型重点关注的研究方向。迁移学习为无监督学习提供了一个好的思路,现阶段迁移学习模型还难以适应目标域中的不同场景,克服场景变换导致的领域适应问题是有价值的研究方向。

  4. 行人检测与行人重识别结合。单独的行人重识别模型并不能满足应用需求,因此结合行人检测与行人重识别具有很大的现实意义与研究价值。


参考链接:https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2020&filename=JSYJ202011004&v=Dhm5rO5ZeYh4WIAcLlVGEbIzhqpnosJJLnGBMsz%25mmd2Btwfddd94lN9bjRpJFWfOANg5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值