2020-10-09 学习笔记

一、课程复习

《计算机软件理论基础》

1、自动机

有限状态机,(英语:Finite-state machine, FSM),又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

 

这是一个简单的例子,在一个情境中存在三种状态,两种动作,圆圈表示就是的是状态,状态之间的箭头表示状态的转移,而箭头上的表示对应的触发条件,例如在 1 状态如果发生 b 则状态变化为 2,自己到自己的箭头表示状态不变化。

参考:https://blog.csdn.net/iamsongyu/article/details/85861163

 

2、闭包,正闭包,克林闭包

参考:

 

 

 

二、论文阅读

《基于深度学习的行人重识别研究进展》罗 浩

  • 行人重识别可以被视为图像检索的一个子问题。
  • 根据损失类型的不同可以分为表征学习 (Representation learning)度量学习 (Metric learning) 方法。
  • 单帧图片的全局特征遇到性能瓶颈之后, 研究者引入局部特征序列特征进一步发展行人重识别研究。
  • GAN 在扩充数据集、解决图片间的偏差等问题上也有不错的效果。

 

数据集的一些注意点:

  • 数据集有机器自动检测和手动检测标注的行人。其中检测数据集包含一些检测误差, 更接近实际情况
  • MARS 和 Market1501 的训练集和测试集存在重叠,因此不能够混在一起训练网络。

行人重识别的方法:

1、基于表征学习的方法

没有直接在训练网络的时候考虑图片间的相似度, 而把行人重识别任务当做分类 (Classification) 问题或者验证 (Verification) 问题来看待。这类方法的特点就是网络的最后一层全连接(Fully connected, FC) 层输出的并不是最终使用的图像特征向量,而是经过一个 Softmax 激活函数来计算表征学习损失, 前一层 (倒数第二层) FC 层通常为特征向量层。

  • 分类问题是指利用行人的 ID 或者属性等作为训练标签来训练模型, 每次只需要输入一张图片; 分类网络常用的两种损失分别是行人 ID 损失(Identification loss) 属性损失 (Attribute loss).

  • 验证问题是指输入一对 (两张) 行人图片, 让网络来学习这两张图片是否属于同一个行人。验证网络是另外一种常用于行人重识别任务的表征学习方法。和分类网络不同之处在于, 验证网络每次需要输入两张图片, 这两张图片经过一个共享的 CNN 网络, 将网络输出的两个特征向量融合起来输入到一个只有两个神经元的 FC 层, 来预测这两幅图片是否属于同一个行人。

 

2、基于度量学习的方法

旨在通过网络学习出两张图片的相似度

  • 对比损失(Contrastive loss)
  • 三元组损失 (Triplet loss)
  • 四元组损失 (Quadruplet loss)

 

3、基于局部特征的方法

局部特征是指手动或者自动地让网络去关注关键的局部区域, 然后提取这些区域的局部特征. 常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及行人前景分割等。

融合全局和局部特征在行人重识别领域也渐渐变得流行,图片切块的方法简单但是需要图片比较规范化, 利用姿态点信息比较精确但是需要额外的姿态估计模型. 高效且低耗的局部特征提取模型。

 

4、基于视频序列的方法

基于单帧图像的 ReID 方法可以通过一个简单方法扩展到视频序列, 即用所有序列图像特征向量的平均池化或者最大池化作为该序列的最终特征。

除了考虑了图像的内容信息, 还会考虑:

  • 帧与帧之间的运动信息
  • 更好的特征融合
  • 对图像帧进行质量判断

 

5、基于 GAN 的方法

GAN 在近几年得到了蓬勃的发展, 其中一个应用就是图片生成. 深度学习的方法需要依赖大量训练数据, 而目前行人重识别的数据集总体来说规模还是比较小. 因此, 利用 GAN 来做行人重识别任务逐渐开始变得流行.

 各方法总结比较:

 

1、表征学习 VS. 度量学习

表征学习:优点在于数据集量不大的时候收敛容易, 模型训练鲁棒性强, 训练时间短。然而,表征学习是将每一个 ID 的 行人图片当做一个类别, 当 ID 数量增加到百万、千万甚至更多的时候, 网络最后一层是一个维度非常高的全连接层, 使得网络参数量巨大并且收敛困难

由于直接计算特征之间的距离, 度量学习的优点在于可以很方便地扩展到新的数据集, 不需要根据 ID 数量来调整网络的结构, 此外也可以非常好地适应 ID 数目巨大的训练数据. 然而, 度量学习相对来说收敛困难, 需要比较丰富的训练经验来调整网络参数, 另外收敛训练时间也比表征学习要长

联合两种学习损失的方式也比较直接, 在传统度量学习方法的基础上, 在特征层后面再添加一个全连接层进行 ID 分类学习. 网络同时优化表征学习损失和度量学习损失, 来共同优化特征层.

 

2、全局特征 VS. 局部特征

全局特征在推理阶段计算快速,但由于全局池化层会使得图像的空间特征信息丢失, 因此在姿态不对齐、行人图片不完整、 只有局部细节不相似等情况下, 全局特征容易出现误识别

局部特征的优点在于可以一定程度上解决这些问题, 当然局部特征也有它自己的缺点. 对于分块的局部特征优点在于不需要引入额外的计算量, 但是通常并不能特别好地解决姿态不对齐的问题. 而利用姿态点估计模型估计出行人的姿态点, 然后再进行局部特征匹配可以较好地解决姿态不对齐的问题, 但是却需要一个额外的姿态点模型.

因此,在不考虑推理阶段计算耗时的前提下, 融合全局特征和局部特征是目前一种提高网络性能非常常用的手段。

 

3、单帧图像 VS. 视频序列

基于单帧图像的方法训练简单, 使用方便, 推理阶段耗时时间短. 然而它的缺点在于单帧图像信息有限, 对于图像质量要求较高, 一旦出现检测框错误或者行人遮挡等情况, 算法效果会大幅度下降.

基于视频序列的方法可以解决单帧图像信息不足的缺点, 并且可以融入运动信息加强鲁棒 性, 然而由于每次要处理多张图像, 因此计算效率较低. 

典型算法比较

挑战与未来

1、挑战

  • 跨视角造成的姿态多变问题:依靠一个预训练的姿态模型来实现姿态的对齐
  • 行人图片分辨率变化:(SING)低分辨率图片经过网络高分辨率处理后再进行特征提取, 而正常分辨率图像则是直接进行特征提取。
  • 行人图片遮挡问题:利用行人姿态模型来估计行人图像的可视部分,然后对可视部分进行局部特征提取、融合。
  • 图像域变化的跨模态重识别:图像域变化的类型也多种多样。例如不同相机、不同天气、 不同时间、不同城市拍摄的图像风格均可能不同。此外, 夜晚 RGB 相机也会失效, 使用红外相机拍摄的图片没有颜色信息, 因此 RGB 图片与红外图片的行人重识别也是个典型的跨模态问题。目前基于 GAN 网络生成图像来解决图像域偏差是一个很流行的思路。

 

2、未来

  • 构建更加适应真实环境的高质量标准数据库。人数、场景、时间等
  • 半监督、无监督和迁移学习的方法。采集的数据终究是有限的, 而标注数据的成本代价也很高. 因此半监督无监督学习的方法虽然在性能上可能比不上监督学习方法, 但是性价比很高;如何通过迁移学习的方法将一个场景训练的模型适应新的场景是一个有价值的研究问题。
  • 构造更加强大的特征。局部特征、序列特征
  • 丰富场景下的行人重识别。半身照片
  • 深度网络的可解释性。很少有研究工作表明哪些信息对行人的识别影响更大。eg:到底是颜色信息还是轮廓信息对识别影响更大, 或者姿态如何对齐、光线如何矫正对性能提升更大我们都不甚明确。
  • 行人重识别与行人检测、行人跟踪的结合。跨摄像头多目标跟踪(Multi-target multi-camera tracking, MTMC tracking)

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值