步态识别论文Dynamic Aggregated Network for Gait Recognition(1)

摘要:步态识别在视频监控、犯罪现场侦查、社会安全等领域有着广泛的应用前景。然而,在实际场景中,步态识别往往受到多种外部因素的影响,如携带条件、穿着外套、视角多样等。近年来,各种基于深度学习的步态识别方法取得了可喜的成果,但它们倾向于使用固定权重的卷积网络提取显著特征之一,没有很好地考虑关键区域中步态特征之间的关系,忽略了完整运动模式的聚合

在本文中,我们提出了一个新的观点,即实际的步态特征包括多个关键区域的全局运动模式每个全局运动模式由一系列局部运动模式组成。为此,我们提出了动态聚合网络( DANet )来学习更具判别性的步态特征。具体来说,我们在相邻像素的特征之间创建了一种动态注意力机制,不仅可以自适应地关注关键区域,而且可以生成更具表现力的局部运动模式。此外,我们开发了一种自注意力机制来选择具有代表性的局部运动模式,并进一步学习鲁棒的全局运动模式。在CASIAB、OUMVLP和Gait3D 3个公开步态数据集上的大量实验表明,该方法能够有效地提高步态识别的准确率

理解

步态识别的应用价值

  • 多种应用领域:步态识别技术对于多种应用场景具有重要意义,包括但不限于视频监控、犯罪现场调查和社会安全等领域。这些领域都需要高效、准确地识别个体的步态特征,以辅助决策和行动。

面临的挑战

  • 外部因素干扰:在实际场景中,步态识别常常受到多种外部因素的干扰,如携带物品的状态、穿着外套的情况以及不同的视角等。这些因素会改变步态的外观特征,从而影响识别的准确性。
  • 现有方法的不足:尽管基于深度学习的步态识别方法已经取得了显著成果,但这些方法往往存在一些问题。例如,它们倾向于使用固定权重的卷积网络来提取单一显著特征,忽略了步态特征在关键区域内的相互关系,同时也未能有效地聚合完整的运动模式。

新方法的提出

  • 新视角:本文提出了一种新的视角,即实际的步态特征不仅包括多个关键区域内的全局运动模式,而且每个全局运动模式都是由一系列局部运动模式组成的。这一视角为步态识别提供了新的思路。
  • Dynamic Aggregation Network (DANet):为了学习更具判别性的步态特征,本文提出了DANet。该网络通过两个关键机制来实现这一目标:
    • 动态注意力机制:在相邻像素的特征之间建立动态注意力机制,该机制不仅能够自适应地关注关键区域,还能够生成更具表达力的局部运动模式。
    • 自注意力机制:用于从众多局部运动模式中选择出具有代表性的模式,并进一步学习稳健的全局运动模式。

实验验证

  • 数据集与结果:本文在三个流行的公开步态数据集(CASIAB、OUMVLP和Gait3D)上进行了广泛的实验。实验结果表明,所提出的方法在性能上显著优于当前最先进的步态识别方法。这一结果证明了DANet在提取和聚合步态特征方面的有效性和优越性

introduction

我们提出问题:如何在各种外部因素的影响下,为每个人自适应地学习更鲁棒的特征?

( I )局部运动模式。步态,或者说行走的行为,本质上是身体各部分的协调运动。在一个步态序列中,我们观察到每个部分都有一个独特的代表性运动模式,并且每个运动模式由一组局部化的子运动组成。在各种外界因素的干扰下,准确定位具有判别性的部位并获得具有代表性的局部运动模式是至关重要的。然而,先前的基于步态的方法[ 7、8、13、14、20、24、33]仅仅使用具有非线性激活的卷积网络来建模动态运动。一旦网络训练完成,参数和非线性函数就只能关注固定的模式。为此,我们提出将每个像素的特征编码为一个具有幅值和相位的向量,如图1所示,该向量允许学习聚焦相邻像素之间的动态注意力映射函数。通过对关系进行建模,网络可以进一步关注关键区域的局部运动模式。

步态与局部运动模式

  • 步态的定义:步态,即行走的动作,是身体各部分协调运动的结果。在步态序列中,我们观察到身体的每个部分都有其独特的代表性运动模式,这些模式由一系列局部子运动组成。
  • 局部运动模式的重要性:为了准确识别步态,必须能够精确地定位那些具有判别性的身体部分,并在各种外部因素的干扰下获得代表性的局部运动模式。

现有方法的局限性

  • 传统方法:之前的步态识别方法(如文献[7, 8, 13, 14, 20, 24, 33]中提到的)大多使用带有非线性激活函数的卷积网络来建模动态运动。
  • 固定模式问题:一旦网络训练完成,其参数和非线性函数就只能关注固定的运动模式。这意味着这些方法在应对不同个体、不同步态条件(如穿着、携带物品等)时的泛化能力有限。

提出的新方法

  • 特征编码:为了解决这个问题,作者提出了一种新的特征编码方式,即将每个像素的特征编码为一个包含幅度和相位的向量(如图1所示)。这种编码方式有助于捕捉像素之间的动态关系,因为幅度和相位信息能够反映信号的变化速度和方向。
  • 动态注意力机制:通过建模相邻像素之间的这种关系,网络能够进一步关注关键区域中的局部运动模式。这里的“动态注意力机制”指的是网络能够自适应地调整其关注点,以响应不同的步态特征和外部干扰。
  • 优势:与传统方法相比,这种方法具有更高的灵活性和鲁棒性,因为它不仅考虑了像素的静态特征,还考虑了像素之间的动态关系。这有助于网络更准确地识别步态中的细微差异,从而提高步态识别的准确率。

(二)全局运动模式。步态是一种周期性的运动。我们假设实际的运动模式是一维信号,如图2所示,其中局部运动模式是信号上的点。因此,有必要使用一系列局部运动模式来进一步拟合实际运动模式,以获得具有辨别力的步态特征。然而,最近的基于步态的方法[ 8、20、33 ]仅使用基于Max或Mean的方法来提取其中一个重要的局部特征。这些方法容易受到干扰,不能贴合实际的运动模式。根据信号处理理论中的奈奎斯特-香农采样定理[ 37、39 ],当以大于信号频率2倍的频率对连续信号进行采样时,原始信号的信息被完好地保留下来。对此,我们提出构建全局注意力模型,并利用该模型动态选择预设数量的可区分局部运动模式(绿色箭头),同时排除噪声(红色箭头)的影响。通过选择足够具有判别性的局部运动模式,网络可以进一步获得鲁棒的全局运动模式

全局运动模式的重要性

  • 周期性运动:步态是一种周期性运动,意味着其运动模式在一定时间内会重复出现。因此,将步态视为一种一维信号(如图2所示)是有意义的,其中局部运动模式可以看作是信号上的点。
  • 全局视角:为了获得具有判别性的步态特征,需要使用一系列局部运动模式来拟合实际的全局运动模式。这是因为全局运动模式能够更全面地反映步态的特性和变化。

现有方法的局限性

  • 提取方法:近期的一些步态识别方法(如文献[8, 20, 33]中提到的)仅使用最大值(Max-based)或平均值(Mean-based)等方法来提取其中一个显著的局部特征。这种方法虽然简单,但容易受到干扰的影响,无法准确拟合实际的全局运动模式。

提出的解决方案

  • 信号采样定理:作者引用了信号处理理论中的奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出当连续信号以大于信号频率两倍的频率进行采样时,可以保留原始信号的完整信息。这为从局部运动模式中提取全局运动模式提供了理论依据。
  • 全局注意力模型:为了克服现有方法的局限性,作者提出了构建一个全局注意力模型。该模型能够动态地选择一定数量的可区分局部运动模式(用绿色箭头表示),同时排除噪声的影响(用红色箭头表示)。这种选择过程是基于全局视角的,有助于捕获更具代表性的步态特征。
  • 获得全局运动模式:通过选择足够多的判别性局部运动模式,网络能够进一步获得稳健的全局运动模式。这些全局运动模式能够更准确地反映步态的特性和变化,从而提高步态识别的准确性和鲁棒性。

在此分析的驱动下,我们提出了一种新颖有效的用于步态识别的动态聚合网络( DANet )。如图3所示,DANet由两个部分组成,设计良好的组件,I.E .,局部Conv -混合块( Lcmb )和全局运动模式聚集器( Gmpa )。首先,我们将每个像素的特征编码到包含幅度和相位的复数域中,其中幅度项表示上下文信息相位项用于建立每个向量之间的关系。局部运动模式是通过聚合相邻聚焦区域中矢量的幅度和相位来产生的。其次,我们利用GMPA模型中的自注意力机制,动态地选择足够有判别力的局部运动模式,并进一步学习以拟合实际的步态模式。最后,通过我们提出的模块,我们获得了每个人最具有代表性的稳定步态特征,并且优于当前的状态

DANet 网络架构

  • 整体结构:DANet 由两个主要部分组成:局部Conv-混合块(Lcmb)和全局运动模式聚集器(Gmpa)。这两个组件协同工作,以提取和聚合步态的局部和全局特征。

局部Conv-混合块(Lcmb)

  • 特征编码:首先,网络将每个像素的特征编码到复数域中,这个复数由幅度和相位组成。幅度项代表了像素的上下文信息,而相位项则用于建立不同像素向量之间的关系。这种编码方式有助于捕捉像素间的动态变化。
  • 局部运动模式生成:通过聚合相邻聚焦区域中矢量的幅度和相位,Lcmb 能够生成局部运动模式。这些局部模式反映了步态中身体各部分的特定运动方式。

全局运动模式聚集器(Gmpa)

  • 自注意力机制:Gmpa 利用自注意力机制动态地选择那些具有足够判别力的局部运动模式。这种选择过程是基于全局视角的,能够排除噪声和不必要的干扰,专注于对步态识别最有贡献的特征。
  • 模式拟合:被选中的局部运动模式被进一步学习和组合,以拟合实际的步态模式。这一过程有助于构建稳定且具有代表性的全局步态特征。

网络的优势

  • 代表性步态特征:通过Lcmb 和 Gmpa 的协同作用,DANet 能够为每个人提取出最具有代表性的稳定步态特征。这些特征不仅具有高度的判别性,还能够应对不同个体、不同步态条件下的变化。
  • 性能提升:与当前最先进的方法相比,DANet 在步态识别任务上表现出色,能够提供更高的识别准确率和鲁棒性。

我们的主要贡献可以概括如下:

·我们提出了一种新颖的LCMB来提取具有代表性的局部运动模式,它可以动态地建模相邻像素特征之间的关系,然后准确地定位关键区域。

·我们设计了一种有效的GMPA来选择具有判别力的局部运动模式,然后将它们聚合以获得鲁棒的全局表示。据我们所知,这是首次尝试在该任务中探索自注意力模型的潜力。

·实验结果表明了所提方法的有效性,在CASIA - B [ 56 ]、OUMVLP [ 41 ]和Gait3D [ 59 ]数据集上的表现优于SOTA方法。此外,CASIA-B [ 56 ]上的许多严格的消融实验也进一步验证了该方法的有效性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值