Deep Gait Recognition: A Survey

摘要

基于深度学习的步态识别方法已经成为该领域的主流技术,并促进了现实世界的应用。在本文中,我们全面概述了深度学习步态识别的突破和最新发展,并涵盖了广泛的主题,包括数据集,测试协议,最新的解决方案,挑战和未来的研究方向。

我们首先回顾了常用的步态数据集以及评价它们的原则。然后,我们提出了一种 新的分类方法,由四个独立的维度组成,即身体表征、时间表征、特征表征和神经结构,以帮助描述和组织该领域的研究景观和文献。

根据我们提出的分类方法,一个全面的调查,步态识别方法使用深度学习,并讨论了它们的性能,特点,优势和局限性。最后,我们讨论了目前面临的挑战,并提出了步态识别未来研究的一些有希望的方向。

介绍

GAIT被定义为步态,内含了多类行人属性。

因此,它被广泛应用于不同的应用领域,如情感分析,运动科学,健康,以及用户识别。步态信息可以通过多种传感方式获得,比如可穿戴式传感器,比如加速度计、陀螺仪、力和压力传感器。
非穿戴式步态识别系统主要使用视觉技术,因此被称为基于视觉的步态识别。这些系统通过图像传感器捕捉步态数据,而不需要受试者的配合,甚至是远距离的配合。
本文重点研究了基于视觉的步态识别系统,这些系统主要依赖于深度学习。我们专注于基于视觉的步态识别,最近发表了一篇综合评论文章,调查了基于穿戴式的步态识别方法。

基于视觉的步态识别系统(以下简称步态识别)的性能会受到

  1. 个体外观变化的影响,例如携带手提包/背包或穿着衣物如帽子或外套;
  2. 摄影机视角的变化
  3. 遮挡因素,例如被摄者身体的某些部分被一个物体部分遮挡,或者被被摄者身体的某一部分以某种视角遮挡(也称为自我遮挡)
  4. 环境的变化,例如复杂的背景和或高或低的照明水平
    这通常使得分割和识别过程更加困难。

进来基于深度学习的方法逐渐占了更多比例。但是仍有non-deep的solution。有空找一下
在 casia-b测试了主流算法.
相关模型发展
== 接下来介绍各个工作的侧重点==

本文综述了截至2021年1月底步态识别技术的最新进展,为深度步态识别方法的技术和性能方面提供了系统的见解。在这个背景下,我们首先提出了一个新的分类学,包括四个维度,即,身体表征,时间表征,特征表征,和神经结构,以帮助描述和组织可用的方法。根据我们提出的分类法,对所有现有的深度步态识别方法进行了综合评述,并对其特点和性能进行了讨论。我们已经建立了特定的搜索协议,以确保其他学者可以放心地在他们未来的研究中使用这项调查。

我们的主要贡献归纳如下:

  1. 提出了一种新的四维分类法来描述和组织现有的深度步态识别方法
  2. 对深度步态识别方法的演变提供了一个分类学指导的回顾,其中大多数方法在以前的调查中都没有被审查过
  3. 使用大规模公共步态数据集上报道的现有结果对现有技术进行了比较,为不同深度步态识别方法的有效性提供了见解。
  4. 回顾了15个公开的基于视觉的步态识别数据集,以及它们的相关测试协议==(评价指标)==。
  5. 讨论了一些开放的挑战,并确定了重要的未来研究方向,将有利于研究人员在步态识别进一步探索。

本文结构

  1. 首先描述用于收集论文和回顾文献的系统方法。
  2. 接下来,在第三部分,我们回顾可用的步态数据集,以及相关的测试协议。
  3. 然后,我们使用这些数据集和协议报告现有的性能结果时,审查深度步态识别方法。
  4. 第四节介绍了我们提出的分类方法。
  5. 第五部分综述了深度步态识别的最新进展,并讨论了近年来深度步态识别的发展趋势。
  6. 第6节讨论了一些深度步态识别的挑战,并确定了一些未来的研究领域。

4.分类(taxonomies)方法

[38]中提出的分类法是基于传感器、分类器和协变量因素(如遮挡类型)的类型。[64]中的分类法根据使用的特征类型对步态识别方法进行了分类。最后,文献[18]中提出的方法考虑了用户外观、摄像头、光源和环境相关因素。然而,尽管有这些分类法,没有一种专注于现今最成功的深层步态识别方法。因此,本文提出了一种新的分类方法,以更好地说明步态识别方法的技术前景,并特别关注于深度学习技术。图4展示了我们提出的分类方法,它考虑了四个维度,即身体表征、时间表征、特征表征和神经结构。这些维度的详细情况将在下面描述。

身体表征

这个维度关系到身体被表现出来进行识别的方式,这可以基于轮廓或骨骼。轮廓是文献中最常用的人体表示方法,它可以通过从背景中减去包含主体的图像,然后进行二值化来计算。步态轮廓是描述单帧人体状态的有效方法,计算量小。这种身体表征迫使识别解决方案将重点放在“步态”上,而不是服装和其他非 GAIT因素,从分类器的角度来看,这些因素可用于识别。轮廓序列可以代表有用的步态特征,如速度、节奏、腿角、步态周期时间、步长、步幅长度,以及摆动和站立的比例[65]、[66]。它也可以处理提取运动数据,例如使用光流计算[28] ,[67] ,[68]。尽管如此,步态轮廓对个体外貌的变化更为敏感,例如不同的服装和携带条件。
骨骼身体表征可以用深度传感摄像机捕捉到,或者用适定性估计方法进行估计[70]。静态和动态特征,例如步长,速度,距离和关节之间的角度,可以从连接的身体关节骨骼的形式[37]。与基于轮廓的方法相比,基于这种身体表征的步态识别方法通常对由于关节位置的考虑而引起的视点变化更具鲁棒性。基于骨架的方法对于外观变化也更具有鲁棒性,因为姿态估计步骤通常学会在不同的服装条件下检测身体关节位置,而步态轮廓不是这样。然而,由于这些方法严重依赖于对身体关节的精确检测,它们通常对闭塞更为敏感[66]。此外,姿态估计器的使用给这些识别系统增加了计算开销[72]。

时间表示

这个维度涉及用于表示步态序列中时序信息的方法。有两种类型的表现形式,模板和体积(范本和容量),已经在文献中被广泛使用。下面我们来描述一下这些表现。
模板聚合时间步行信息在一个单一的地图轮廓序列,例如通过平均轮廓至少一个步态周期。此操作使得识别解决方案与创建模板映射后的帧数无关。关于深度步态识别体系结构,步态轮廓可以聚合在网络的初始层(图5-a) ,也就是已知的区域模板中,聚合后的映射图可以被后续的层[73] ,[74] ,[75] ,[76] ,[77]处理。步态轮廓可以通过几个卷积层和合用层(图5b) ,也称为卷积模板[30] ,[31] ,在网络的中间层聚集。时间模板的例子包括: (i)步态能量图像(gei)[73] ,平均每个周期/序列的步态轮廓(图5c) ; (ii)计时步态图像(cgi)[74] ,提取每个步态图像中的轮廓,然后使用多通道映射函数对其进行编码,形成一个单一的映射(图5-d) ;(iii)帧差能量图(fdei)[75] ,利用聚类和去噪算法保存运动信息,特别是当轮廓不完整时(图5-e) ; (iv)步态熵图(geni)[76] ,计算单个步态模板中每个像素的熵值(图5-f) ;和(v)周期能量图像(pei)[77] ,一种基于帧幅度(图5-g)的多通道映射函数,保留了更多的空间和时间信息的基因概括。
为了保持和学习步态序列中帧的顺序和关系,而不是聚集它们,序列体积表示法已被采用(见图4,左起第二个框)。然后,为了学习时间信息,采用了两种不同的方法。在第一种方法中,序列上的时间动态是通过循环学习策略来学习的,例如循环神经网络,其中每一帧都是根据它与前一帧[34] ,[78] ,[79]的关系来处理的。第二种方法首先根据序列中可用的时空信息创建三维张量,其中张量的深度表示时间信息。然后学习这些张量,例如使用3d cnns [35] ,[80] ,[81]或图卷积网络(gcns)[82]。

特征表示

这个维度封装了表示学习的支持区域,可以是全局的,也可以是局部的。整体学习轮廓或骨架的过程称为全局表征学习。另一方面,当学习部分表征时,步态数据被分割成局部区域,例如,补丁,身体组成部分,和垂直/水平箱(见图4,左起第三个框)。然后对这些局部区域进行进一步处理,例如通过递归神经网络[31]、胶囊网络[83]、基于注意力的网络[84]或完全连接的层[30]。基于全局表征的方法往往对遮挡和外观变化更敏感,以及缺少关键的身体部位[30] ,[85]。另一方面,局部区域对最终识别性能的贡献往往不同,因此了解它们的重要性可以提高步态识别方法的整体性能[30] ,[32]。此外,这些部分特征之间的关系可以学习,从而保留的位置属性,如规模,旋转,和位置,这提高了稳健性的步态识别方法的方向和视图变化[31] ,[83]。

神经结构

深层神经网络使用多个非线性变换的层次结构来获取高层次的抽象。针对步态识别问题,人们设计了各种不同的神经网络结构,其描述如下。

卷积神经网络

卷积神经网络(cnns)是目前应用最广泛的步态识别方法。Cnns 通常由不同类型的层组成,包括卷积层、汇聚层和完全连接层。卷积层卷积学习过滤器与输入图像创建激活特征地图,捕获不同级别的细节特征。卷积层还包括激活函数,如 relu [86]或 tanh [87]函数,以增加输出的非线性。然后通过使用非线性下采样策略(如平均池或最大池)减小特征映射的空间大小,从而降低了网络的复杂性。完全连接的层最终被用来学习生成的二维特征映射到一维特征映射进行进一步处理。为了更好地分析目前最先进的步态识别方法所采用的神经网络,我们在表2中提供了一个最成功的应用结构的概述。必须指出的是,对于结合 cnns 和其他类型的深层网络的方法,例如,autoencoder、 capsule 和 lstm,我们只在表中提供 cnn 组件的体系结构。我们还提供了每个 cnn 使用的输入大小,在最近的文献中显示了分辨率趋向于64 × 64的趋势。另外,文献[26]的分析表明,对于几个测试样本,分辨率分别为64 × 64和128 × 128的步态识别结果最好,其中输入分辨率为128 × 128的步态识别效果略好于64 × 64。然而,由于较高的输入分辨率意味着更多的卷积层和汇聚层,64 × 64的输入分辨率被广泛采用来限制解的计算复杂度。

深度信念网络

深度信念网络(dbn)[88]是一种概率生成模型,由标注受限玻耳兹曼机器(rbms)[89]组成,目的是从训练数据中提取层次表示。每个 rbm 是一个两层生成的随机模型,包括一个可见层和一个隐藏层,相邻层之间有联系,每个层中的单元之间没有联系。单位的权重和偏差定义了可见单位和隐含单位联合状态的概率分布。Dbns 已经在[90]和[25]中用于步态识别。在[90]中,从步态轮廓中提取拟合、身体参数和形状特征。然后 dbns 被用来从这些特征中学习,从而提取更多鉴别特征。在[25]中,步态首先表示为运动和空间组件,并且为每个组件训练两个独立的 dbns。提取出来的特征最终连接起来表示最终的特征。

循环神经网络

递归神经网络(rnns)已经被广泛应用于时间或序列学习问题,在不同的任务[91] 包括步态识别[29] ,[31] ,[79] ,[83] ,[92] ,[93] ,[94]中取得了竞争性的成绩。一层 rnn 通常由几个细胞组成,每个细胞对应序列的一个输入元素,例如,步态视频的一帧。Rnns 也可以叠加几层以使模型更深入,在那里输== ==出的 ithcell 损伤层喂养在(j 1)层的 ithcell。每个细胞都连接到它的前一个和后一个细胞,从而记忆前一个时间步骤的信息[91]。在不同的神经网络结构中,长短期记忆(lstm)[95]和门控循环单元(gru)[96]是应用最广泛的神经网络结构,它们利用记忆状态和可学习门控函数来研究步态序列中可用的关系。在 lstm 网络[95]中,细胞有一个共同的细胞状态,这个状态保持了整个 lstm 细胞链的长期依赖关系,由两个门控制,即所谓的输入和忘记门,从而允许网络决定何时忘记以前的状态或用新信息更新当前状态。每个单元的输出,即隐藏状态,由一个输出门控制,该输出门允许单元根据更新后的单元状态计算其输出。Gru [96]是另一种形式的 rnn,不使用输出激活函数相对于 lstm。此体系结构还包括一个更新门,允许网络根据新信息更新当前状态。门的输出,也称为复位门,只维护与单元输入的连接。在深度步态识别系统中,有三种不同的方法使用 rnns。第一种方法79主要用于骨骼表示,使用 rnns 以便从关节位置的时间关系中学习。在第二种方法[92] ,93中,正如我们将在第4.4.9节中详细讨论的那样,rnns 与其他类型的神经结构,特别是 cnns 结合起来,学习空间和时间信息。最近在[31]中采用的最后一种方法,83使用 rnns 从单个步态模板递归地学习部分表示之间的关系,例如 gcem [31]。Cnn (a)(b)© cnn rnn rnn rnn rnn rnn rnn rnn…Cnn… cnn 图6: 在深度步态识别系统中使用 rnns 的三种不同方法: (a) rnns 直接从关节位置的运动中学习; (b) rnns 与 cnns 结合; (c ) rnns 循环学习步态模板中部分表征之间的关系。

深度自动编码机( Deep AutoEncoders)

深度自动编码器(dae)是一种利用编解码结构提取所谓瓶颈特征或潜在空间表示的网络。编码器将输入数据转换为特征表示,解码部将该表示还原为原始输入数据。==编码器一般包括几个完全连接的和/或卷积层,而解码器包括执行反操作的层。==网络的训练一般是以最小化重构误差为目标,即测量原始输入和重构版本之间的差异。一旦训练完成,就会提取出原始输入知识的隐藏/压缩表示的瓶颈特征,用于分类,即我们所说的步态识别。文献[99]提出的方法使用一个大脑网络,首先对输入的时间模板进行编码,使用四个卷积层提取特征。然后,解码器使用四个去卷积层从提取的特征重构输入。在文献[100]中,我们使用了一个7层连接的输入输出层的自动编码器来提取健壮的步态特征。在[101]中,a dae 被用来将输入时间模板分解为同一性和协变量特征。该编码器的主干是基于 googlenet [102]中的起始模块,提取多尺度同一性和协变量特征。然后解码器将这些特征作为输入,使用反卷积层重建时态模板。

生成对抗网络

生成对抗性网络(gans)包括一个生成器和一个鉴别器[103] ,生成器的目的是通过合成与真实样本相似的假样本来欺骗鉴别器。反过来,鉴别器的目的是区分假样本和真样本。作为这两个部分之间的极大极小博弈的结果,gans 可以生成真实的合成样本,特别是在步态上下文中。这些网络还可以用来保存身份信息,同时沿着低维流形传递步态变化,如姿态和服装,这一过程被称为区域适应。这解开了身份和步态变化,通常导致步态识别系统性能的改善[77] ,[104] ,[105] ,[106] ,[107] ,[108]。不同种类的甘斯最近被用于步态识别。多任务 gan (mgans)[77]已经被提出用于跨视图步态识别,其中 cnn 被用来学习时间模板作为潜伏空间中的视图特定特征。然后,使用视图变换层将特征从一个视图变换到另一个视图。然后对网络进行多任务对抗和逐像素丢失训练。在另一篇论文中,判别式步态 gan (diggan)[106]考虑了使用两个独立的判别器将一个特定的视点转换到另一个视角,同时保留身份信息的机制。在[107]中,提出了一种双流 gan (ts-gan)方法,将不同视角的 gei 时态模板转换为标准视角的 gei 时态模板,即90 o o。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值