(4)步态识别论文研读——用于步态识别的分层时空表示学习

论文提出一种新的HSTL框架,通过层次聚类和自适应区域的运动提取器ARME,捕捉步态的分层运动特性。ARME利用非共享3D卷积处理区域独立特征,自适应时空池捕获不同层次的步态特征,而帧级时间聚合减少冗余信息。实验证明,该方法在多种数据集上优于现有技术,平衡了模型性能和复杂度。
摘要由CSDN通过智能技术生成

论文题目Hierarchical Spatio-Temporal Representation Learning for Gait Recognition

论文地址

https://arxiv.org/abs/2307.09856

1.摘要

步态识别是一种生物特征技术,通过其独特的行走方式识别个体,适用于无约束环境,具有广泛的应用。虽然目前的方法侧重于利用基于身体部位的表示,但它们通常忽略了局部运动模式之间的层次依赖关系。在本文中,我们提出了一个分层时空表示学习 (HSTL) 框架,用于从粗到细提取步态特征。我们的框架从层次聚类分析开始,从全身恢复多级身体结构到局部细节。接下来,设计了一个自适应基于区域的运动提取器(ARME)来学习与区域独立的运动特征。然后,所提出的 HSTL 以自上而下的方式堆叠多个 ARME,每个 ARME 对应于层次结构的特定分区级别。自适应时空池(ASTP)模块用于捕获不同层次的步态特征,以执行分层特征映射。最后,利用帧级时间聚合(FTA)模块通过多尺度时间下采样来减少步态序列中的冗余信息。在CASIA-B、OUMVLP、GREW和Gait3D数据集上的大量实验表明,我们的方法在保持模型精度和复杂性之间合理平衡的同时,优于最先进的方法

思考:1.分层是怎么体现的?          2 从粗到细 从整体到局部提取特征 设计了自适应基于区域的运动提取器ARME  怎么自适应 怎么基于区域 3如何自顶向下的方式堆叠多个ARME 什么是自顶向下4.ASTP自适应时空池捕获不同层次的步态特征 执行分层映射 怎么捕获步态特征 5FTP帧级别的时间聚合采取多尺度时间下采样减少冗余信息,怎么多尺度下采样 怎么减少冗余?

1 局部运动模式之间的层次依赖关系是什么 ?

例如大腿和小腿,由于它们之间的强运动相关性而重叠  如头部和脚,很容易分离 表明语义体区域可以在更高的聚类级别捕获,而无需精确定位身体部位,作者认为之前的基于整体和部分的表示都不够全面,基于整体的没有考虑到局部之间的细节,基于part 的 区域的划分 没有考虑到运动特征之间的依赖关系,比如大腿小腿 就有强运动关系  所以充分对区域进行划分 是关键问题。仅仅一次划分是不够的还要从整体到局部的由大面积到小面积划分。所以提出了分层的概念 level1提取全部 level2 分割成两部分 level 3分成四部分 level4 分成8部分  

2基于区域的运动提取器(ARME)来怎么学习与区域独立的运动特征?

在与个体身体区域对应的情况下使用了非共享3D卷积。这些区域是通过在固定水平分区上执行的分层聚类过程预先识别的,允许每个身体区域覆盖一个或多个身体部位

分层聚类的过程 对身体进行了预先识别  哪些部位该划分到一起 哪些身体部位是强相关的 是提前学习到的   提前划分了之后 在划分好的区域之内执行非共享3D卷积  ,因为非共享 所以参数独立 所以学习到了独立的运动特征

3 执行完运动特征提取 ,如何将提取到的特征进行映射嵌入   也就是说 自适应时空池的 作用是什么?

特征提取器提取到的特征往往是高维度,含参量比较大的,将原始的高维特征空间映射到一个低维连续的向量空间。这样做可以减少计算复杂性,使得模型在训练过程中能够更快地收敛,提高学习效率。分层嵌入是为了进一步优化和处理提取的特征

4.框架级时间聚合  如何在压缩序列长度的同时保留重要的运动信息?

2.introduction
与其他生物识别技术(如指纹、虹膜和面部)不同,人类步态可以在远处捕获,而不需要受试者合作[34]。通过评估个体特定的行走模式,步态识别已被应用于犯罪调查[31,29]、体育科学[17,6]和智能交通[47]等多个领域。然而,由于视点[28,18]、遮挡[33,43]和佩戴[50,48]的巨大变化,识别可能具有挑战性。

为了解决这些问题,已经提出了各种方法来从轮廓序列[4,25,16,15,55]、3D人体结构[1,22,42,59,20]或步态模板[10,35,51]中提取步态特征。基于轮廓的步态识别方法由于易于从原始视频中获取轮廓,同时保留必要的时间信息,受到越来越多的关注。输入轮廓的对齐使得一些方法可以通过水平切片轮廓图像[56]或中间层特征来提取局部身体特征[8,27]。这种分区策略,首先在人员重新识别 (ReID) [38] 中引入,已被证明对步态识别有效 [4, 8, 12, 3]。然而,上述基于部分的方法的主要限制是它们没有考虑局部身体运动的分层性质[2]。例如,在步态周期中,脚和下身具有不同的运动特征。因此,分别对待这些身体区域并调查它们的部分-整体关系很重要。我们的动机源于对身体部位特定的运动线索的检查。具体来说,CASIA-B[52]数据集中的每个原始步态序列沿身体轴均匀划分为8个部分序列,使每个划分大致匹配一个特定的身体部位,所有身体部位分布如图1左侧所示。值得注意的是,由于行走运动学的巨大变化,一些部位,如头部和脚,很容易分离。而其他部分,例如 大腿和小腿,由于它们之间的强运动相关性而重叠。此外,为了识别部分序列之间的关系结构,进行了层次聚类分析 [7]。结果如图1右侧所示,表明语义体区域可以在更高的聚类级别捕获,而无需精确定位身体部位。基于以上发现,我们提出了一种新的分层时空表征学习(HSTL)框架用于步态表征。HSTL框架由多个自适应基于区域的运动提取器(ARME)模块组成,这些模块被堆叠以学习步态序列中隐含的分层运动模式(如图1所示)。在ARME模块中,为了考虑区域间的差异,在与个体身体区域对应的情况下使用了非共享3D卷积。这些区域是通过在固定水平分区上执行的分层聚类过程预先识别的,允许每个身体区域覆盖一个或多个身体部位。因此,ARME越深,它倾向于提取更多的局部特征。此外,提出了一种自适应时空池(ASTP)模块,该模块与相应层次的ARME模块耦合,获得分层步态嵌入。此外,步态速度或采样频率的变化可能导致步态序列中出现多个冗余帧。虽然提出了几种时间融合策略,但它们都丢失了空间信息[8,15]或缺乏适应性[27,25]。为了解决这个问题,我们提出了一种框架级时间聚合策略(FTA)。FTA在多个时间步融合时间特征,在压缩序列长度的同时保留重要的运动信息。

本文的主要贡献总结如下

我们提出了一种用于步态识别的分层时空表征学习(HSTL)框架。HSTL考虑了步态运动中身体区域的依赖性,保证了结构设计的简单性和可扩展性。•我们引入了一个基于自适应区域的运动提取器(ARME)模块来学习步态序列的区域独立时空表示,一个自适应时空池(ASTP)模块来执行分层特征映射,以及一个帧级时间聚合(FTA)策略来通过去除冗余帧来压缩步态序列。•在广泛使用的步态数据集CASIA-B[52]上进行的大量实验,包括OUMVLP[39]、GREW[60]和Gait3D[59],表明我们的方法达到了先进水平的同时在模型准确性和复杂性之间提供了适当的权衡。

3.related work 略

3方法

 在本节中,我们详细描述了HSTL,

包括自适应基于区域的运动提取器(ARME)、

自适应时空池(ASTP)和帧级时间聚合(FTA)。

1.预处理 在预处理阶段,将每个步态序列Si水平均匀划分为k个部分序列,从1到k索引。然后,对这些部分序列应用层次聚类算法[7]来获得步态运动的通用层次结构表示为   

通过阅读代码 在代码中 k=8   L=4  一共有四层

2.先看一下最终的输出 一系列特征的concat 拼接

主分支输出的Y^{^{M}}是 也就是通过最后一个ASTP(4)的输出,输出的这些蓝色的特征

输入Sin 经过ARME(1)——ARME(2)——FTA—— ARME(3)——ATTP(4)  得到最后的Y^{^{M}}

3.辅助分支(2)式字 后面那几项 分别的 辅助分支的四个输出 绿 黄 粉 浅蓝输出 执行分层映射 得到最终的Gait embeiddings  然后对gaitembeddings 执行全连接 计算交叉熵损失和三元组损失

3.2. Adaptive Region-based Motion Extractor (ARME)

基于自适应区域的运动提取器 (ARME) 旨在提取与步态序列中不同人体部位相关的独立时空模式。与现有的沿高度轴均匀切片步态图像或序列的方法不同[56,8,27,25],ARME考虑了不同部分序列之间的内在层次关系,这允许ARME有效地捕获每个部分的独特行走运动学

 Hj 的表达不是很理解

 取绝对值这里不是很懂,根绝表2    P2={{1, 2, 3, 4, 5},{6, 7, 8}}  Hj 的长度应该是按照划分的比例对原长度进行划分    若是第一部分{1, 2, 3, 4, 5}个人理解 

 这个式字的意思是集合内元素个数求和 则第一部分长度(5/8)H  第二部分是3/5 H  如果H是64 则第一部分长度是40 第二部分长度是24 

f. 对每一部分执行独立的3D卷积,有效地捕获每个部分的独特行走运动学模式

3.3. Adaptive Spatio-Temporal Pooling(ASTP)

设计了自适应时空池化(ASTP)来构建分层特征映射(如图2所示)。与 3.2 节中描述的 ARME 模块类似,层次结构 P 使我们能够获得第 l 层的第 j 个区域,表示为 X(l)j。对应的ASTP,记为Γ(l)

Xj通过一个 帧级别全局最大池化MAX将T 维度变为1得到输出 经过一个全连接层扩大通道维度  通过GeMj 后得到最终的输出    C(l)×1×Kl ×1

3.4. Frame-level Temporal Aggregation

由于采集帧速率和速度频率等因素,步态序列可能包含几个冗余帧。为了减少计算成本,一些方法通过聚合步态序列的局部剪辑来压缩步态序列[27,25]。在提出的帧级时间聚合(FTA) 策略中,我们考虑了步态结构和多尺度时间信息。给定第 l 层的第 j 个步态区域 X(l)j ,我们首先使用以下公式融合两个时间尺度的特征:

 Eq.(5)、的输出是两个尺度 U (l)j,1 和 U (l)j,2 的聚合结果的元素求和,它将输入的时间维度从 T 减少到 T/3。

然后,FTA 模型产生帧级权重,可以表示为:其中 GAP (·) 表示沿空间维度的全局平均池化。FCj,1 (·) 和 FCj,2 (·) 是两个独立的全连接层,用于生成帧选择加权张量

 这个帧级别时间聚合看起来公式有些麻烦

由图和公式分析我们可以分析得出实现过程,特征进行分组以后,每个部分经过了两个3D池化操作 两个池化操作的输出结果大小是一样的(C, T?3 , H(l)j , W )两个尺度的聚合结果的元素求和 

FTA 模型产生帧级权重,其中 GAP (·) 表示沿空间维度的全局平均池化。FCj,1 (·) 和 FCj,2 (·) 是两个独立的全连接层,用于生成帧选择加权张量,权重在两个尺度上进一步归一化,可以写成如下

  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值