(3)步态识别论文研读——GaitGL

Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation

代码:ShiqiYu/OpenGait: A flexible and extensible framework for gait recognition. You can focus on designing your own models and comparing with state-of-the-arts easily with the help of OpenGait. (github.com)

论文:[2011.01461] Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation (arxiv.org)

摘要:

步态识别是最重要的生物识别技术之一,已被应用于许多领域。最近的步态识别框架通过从人类的全局外观或局部区域提取的描述符来表示每个步态帧。然而,基于全局信息的表示往往忽略了步态帧的细节,而基于局部区域的描述符无法捕获相邻区域之间的关系,从而降低了它们的区分性。在本文中,我们提出了一种新的特征提取和融合框架来实现步态识别的判别特征表示。为了实现这一目标,我们利用全局视觉信息和局部区域细节,并开发了一个全局和局部特征提取器(GLFE)。具体来说,我们的 GLFE 模块由我们新设计的多个全局和局部卷积层 (GLConv) 组成,以原则上集成全局和局部特征。此外,我们提出了一种新的操作,即局部时间聚合(LTA),通过减少时间分辨率来进一步保留空间信息,以获得更高的空间分辨率。在我们的 GLFE 和 LTA 的帮助下,我们的方法显着提高了我们的视觉特征的判别性,从而提高了步态识别性能。大量实验表明,我们提出的方法在两个流行的数据集上优于最先进的步态识别方法

1.introduction 

步态识别是一种生物特征技术,取决于人类行走姿势的独特性。由于人体步态可以在远距离条件下捕获,识别过程不需要被试的合作,步态识别已广泛应用于视频监控、智能交通等领域,步态识别的性能受到多种条件的影响,例如改变服装、携带条件、交叉视图、速度变化和分辨率[4,14,24]。因此,提高步态识别在复杂外部环境的性能仍然是非常可取的。最近,许多现有的步态识别方法使用卷积神经网络 (CNN) 来生成步态特征表示,并比传统的方法获得更好的识别性能。一般来说,特征表示可以分为两类:基于全局特征和局部特征的表示。基于全局特征的表示方法从整个步态帧中提取步态特征。Shiraga等人[18]使用2D CNN从步态能量图像(GEI)中提取全局步态特征。Chao等人[3]也使用2D CNN在帧级别提取全局特征。基于局部特征的表示方法从局部步态部分提取和组合局部步态特征。Zhang等人[27]将人体步态划分为不同的局部部分,并使用多个独立的2D CNN提取局部特征。范等人。 [5] 设计了一个焦点卷积层来进一步从特征图中提取局部特征(gaitpart)。然而,上述方法仅利用全局特征或局部特征来表示,从而限制了识别性能。特别是,全局特征表示可能不足以关注步态的细节,而局部特征表示可能会丢失步态的全局上下文信息,而忽略了局部区域之间的关系。此外,Wolf 等人 [20] 引入了 3D CNN 来提取稳健的时空步态特征。然而,传统的 3D CNN 需要固定长度的步态序列进行分类,因此无法直接处理不同长度的视频。为了解决上述问题,本文提出了一种新的跨视图步态识别框架,通过学习全局和局部特征的有效表示。具体来说,我们在 3D CNN 框架中构建了一个名为 Global 和 Local Feature Extractor(GLFE) 的新特征提取模块,用于从步态帧的全局和局部信息中获得判别表示。在 GLFE 模块中,我们设计了一种新的全局和局部卷积层 (GLConv),以原则上提取全局和局部特征。全局特征提取器专注于整个视觉步态外观,而局部特征提取器则关注步态细节。然后,GLFE模块由多个GLConv层组成。结合全局和局部步态特征图,GLFE 模块能够获得更具辨别力的特征表示。由于现有的基于2D cnn的方法[5,3]通常使用空间池化层对特征分辨率进行下采样,空间信息会逐渐丢失。为了充分利用空间信息,我们开发了一种新的局部时间聚合(LTA)操作来取代传统的空间池化层,并在局部剪辑中聚合时间信息。通过这种方式,我们利用时间分辨率来获得更高的空间分辨率。由于所提出的方法采用 3D 卷积,因此时间卷积用于聚合时间信息。

本文的主要贡献有三个方面。1)我们提出了一种新的步态识别框架来获得判别步态表示。在这个框架中,我们引入了一个新的全局和局部特征提取 (GLFE) 模块,它具有我们的全局和局部卷积层 (GLConv)。

2)我们提出了一种新的局部时间聚合(LTA)操作来聚合局部时间信息,同时保留空间信息

3)该方法在公共数据集CASIA-B和OUMVLP上进行了评估。实验结果表明,它可以实现最先进的性能,尤其是在复杂条件下。

2. Related Work

典型的步态识别方法之一是对3D人体进行建模[1,2,28]。3D人体模型通常使用多个摄像机从不同的视角捕捉步态数据,重建人体三维模型,然后利用三维步态特征进行识别。虽然 3D 人体模型可以携带更多信息并在跨视图条件下具有很强的鲁棒性,但在实际场景中很难构建 3D 人体步态模型。同时,构建人类 3D 模型需要复杂的计算。因此,最近的研究人员基于二维步态数据进行人体步态识别,这使得跨视图成为一个具有挑战性的因素。最近,在基于2D步态数据的作品中,步态序列通常被合成成一个步态模板进行识别。为了降低跨视图的效果,现有的步态识别方法可分为两种类型。第一种类型利用手工制作的视图不变特征 [6, 16, 11],它将不同的视角归一化为特定的视角。尽管规范化视图,可以解决跨视图的问题,在转换过程中会导致步态信息丢失第二种类型利用视图转换模型 (VTM) [12, 22] 来构建两个不同视角之间的相关性。然后,在测试阶段,可以将一个步态视图转换为另一个步态识别。然而,在现实中很难完全收集人类步态的所有视角,受 CNN 在人脸识别和动作识别方面的巨大成就的启发,一些研究人员利用 CNN 进行步态识别。虽然跨视图没有明确解决,但 CNN 可以提取更稳健的步态特征,提高了特征表示能力。最近,基于2D或3D卷积网络设计步态识别方法变得流行起来。Shiraga等人[18]提出了基于二维卷积的GEInet结构。他们利用两个卷积层从GEI中提取特征。Zhang et al.[25]引入了一个具有二维卷积的Siamese框架,该框架也适用于GEI。Wu等人[21]提出了LB和MT 2D cnn方法。然而,在GEI的合成过程中,步态序列的时间信息可能会丢失。因此,一些研究人员首先在帧级步态图像而不是GEI中提取步态特征,然后进行操作生成步态模板[3,27,5]。Chao等人[3]使用统计函数在帧级特征提取后构建步态模板。

然而,这些方法只从每一帧中提取特征,该帧使用空间信息,但放弃了帧之间的时间关系。Zhang et al.[27]引入了一种时间注意机制来学习每一帧的注意力分数,用于自适应调整特定帧的权重。Fan等人[5]提出了一种名为GaitPart的新框架,用于从步态序列中提取空间特征,然后对提取的2D特征的时间依赖性进行建模。为了利用空间和时间信息,引入了三维卷积[20,15]。例如,Wolf等人[20]利用三维卷积进行步态识别特征提取。然而,传统的3D CNN需要以固定长度的步态序列作为输入,不能自适应地处理不同长度的视频。在本文中,所提出的方法不仅使用 3D 卷积,而且还引入了统计函数来聚合时间信息以进行表示。为了进一步提高特征表示能力,一些研究人员[27,5]利用局部步态特征代替全局特征。Zhang et al.[26]将人体步态图像划分为四个不同的部分,作为局部人体步态。然后,他们使用多个 2D CNN 来提取每个局部部分的局部步态特征。Fan等人[5]提出了一种新的卷积层,称为焦点卷积层,用于从局部特征图中提取局部步态特征。虽然它可以学习更多的细节,但局部步态特征忽略了不同局部区域的关系。因此,本文提出了一种新的GLFE模块提取更全面的特征,其中包含全局和局部信息。

3.提出的方法

3.1. Overview

在本节中,我们首先概述所提出方法的框架。然后我们描述所提出方法的关键组件,包括局部时间聚合 (LTA)、全局和局部特征提取器 (GLFE) 和广义均值 (GeM) 池化层 [17]。最后,给出了训练和测试的细节。概述所提方法的概述如图1所示,旨在提取更全面的步态识别特征表示,包括三个关键组件。首先,我们使用卷积从原始输入序列中提取浅层特征。接下来,设计了局部时间聚合(LTA)操作来聚合时间信息,并保留更多的空间信息进行权衡。之后,实现全局和局部特征提取器(GLFE)来提取全局和局部信息的组合特征集成。然后,我们利用时间池化和 GeM 池化层来操作特征图。最后,我们选择三元组损失 [3, 5] 和交叉熵损失来训练所提出的模型

3.2局部时间聚合

,以前的工作 [3, 5] 使用特定模式“CL-SP-CL SP-CL”来提取特征,其中 CL 表示卷积层,SP 表示空间池化层。然而,由于SP下采样操作,空间信息可能会丢失。考虑到步态序列中的时间信息是周期性的,我们提出了 LTA 操作来替换第一个空间池化层,该层可以整合局部剪辑的时间信息并保持更多的空间信息。

这里用了一个3d卷积实现过程很简单,卷积之后T 减小 H W 不变

3.3.全局和局部特征提取器

除了全局步态特征[3,18],最近的一些研究提出了不同的步态识别框架,利用局部步态信息,如图2(a)(b)[27,5]所示。例如,张等人。 [27] 提出了 ACL 框架,通过使用多个单独的 2D CNN 来提取局部步态特征。Fan et al.[5]开发了一个焦点卷积层来提取局部特征,然后将它们组合起来。虽然它包含比全局步态特征更详细的信息,但局部步态特征不关注局部区域之间的关系。因此,我们提出了一种新颖的 GLFE 模块来提取特征,该模块可以利用全局和局部信息。GLFE 模块由 GLConv 层实现,该层包含全局和局部特征提取器。全局特征提取器可以提取整个步态信息,而局部特征提取器用于从局部特征图中提取更多细节。由于组合不同,GLConv 具有两种不同的结构,例如 GLConvA 和 GLConvB。GLLE模块包括四层,“GLConvA-SP-GLConvA-GLConvB”,如图1示。

实验结果

未完待续

  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值