【阅读文献笔记】骨骼信息的人体行为识别综述

<“骨骼信息的人体行为识别综述”>

摘要

“基于骨骼信息的人体行为识别旨在从输入的包含一个或多个行为的骨骼序列中,正确地分析出行为的种类

与基于图像的人体行为识别方法相比,基于骨骼信息的人体行为识别方法不受背景、人体外观等干扰因素的影响,具有更高的准确性、鲁棒性和计算效率。

针对基于骨骼信息的人体行为识别方法的重要性和前沿性

本文首先回顾了 9 个广泛应用 的骨骼行为识别数据集,按照数据收集视角的差异将它们分为单视角数据集和多视角数据集,并着重探讨了不同数据集的特点和用法。

其次,根据算法所使用的基础网络,将基于骨骼信息的行为识别方法分为

基于手工制作特征的方法、

基于循环神经网络的方法、

基于卷积神经网络的方法、

基于图卷积网络的方法

以及基于 Transformer 的方法,重点阐述分析了这些方法的原理及优缺点。

其中,图卷积方法因其强大的空间关系捕捉能力而成为目前应用最为广 泛的方法。采用了全新的归纳方法,对图卷积方法进行了全面综述,旨在为研究人员提供更多的思路和方法。

最 后, 8 个方面总结现有方法存在的问题,并针对性地提出工作展望。”

📊 研究背景

引言

“与 RGB 数据相比,骨骼信息具有以下优 点:

1)特征表示明确。骨骼信息能够清晰地表示出 人体的结构,且对背景、服饰、光照和视角变化等具 有 很 强 的 鲁 棒 性 。

2)时 空 信 息 丰 富 。 在 单 帧 数 据 内,相邻关节点之间的几何连接意义明确,能够表现 出丰富的肢体信息。在相邻帧之间,同一关节点的 状态具有很强的继承性,存在丰富的依赖关系。

3) 数据量小。因其只包含描述人体关节点的坐标信 息,轻量简洁,从而减小了研究负担。”

数据集

多视角数据集

“Skeleton-Kinetics 数据集是以从 YouTube 视频上 搜集的 Kinetics 数据集(Kay 等,2017)为基础而制作 的,制作过程为:使用 OpenPose 人体姿态估计工具 (Cao 等,2017)对每一帧图像提取 18 个关节点的二 维坐标(XY)数据并给出置信度得分 C该数据集 包含 400 个种类行为共计 30 万个视频剪辑片段,每 个片段的长度大约 10 s由于 Kinetics 数据集来源 ,存 、摄 素,因此该数据集具有较强的挑战性。”

在基于骨骼的行为识别领域中,NTU RGB+D 60 NTU-60(Shahroudy 等人,2016)数据集是目前应用 最为广泛的大型行为识别数据集之一。该数据集包含通过 Microsoft Kinect v2 深度传感器在室内场景下 采集完成的 56 800 个视频样本,其中包含由 40 位志 愿者完成的 60 个种类的行为。该数据集提供了 4 不同的数据形式:深度图像、RGB 图像、3D 骨骼序列 和红外序列

该数据集提供两个验证基准:

跨对象 (cross-subject,X-Sub)

跨 视 角(cross-view,XView)。

跨对象基准以人物的编号来划分训练集和 测试集,有 40 320 个训练样本和 16 560 个测试样本。 跨视角基准以相机的编号划分训练集和测试集, 3 个相机的水平视角设置有所区别,分别为-45° 45°。编号为 1 的相机采集到的样本为测试集, 2 号和 3 号相机采集到的样本为训练集

“NTU RGB+D 120NTU-120)(Liu 2020a)数 据集

是对 NTU-60 的扩展,包括 120 个种类的行为, 114 480 。 与 NTU-60 不 同 的 是 , NTU-120 使用

跨对象

跨设置号(cross-setup,X-Set)

两个基准。其中跨对象基准与 NTU-60 相同。设置号是根据相机的高度和距离而规定的,跨设置号基准是将设置号为奇数的样本用于测试、偶数编号的用于训练。该数据集的示例图如图 2(b)所示,采集场所均为室内实验环境。”

数据集评估标准

评估标准用于算法之间的性能比较。在行为识 别任务中,常见评价标准为 Top1 和 Top5、网络的总参 数 量 和 每 秒 浮 点 运 算 次 数(floating-point operations per second,FLOPs)等。

其中,Top1 为预测得分排名第 1 的类别与真实标签相符的情况,

Top5 为预测得分排名前 5 类别中包含真实标签的情况。一般而言,在 Kinetics 数据集中,用 Top1 和 Top5 准确率进行性能评估,其他数据集都仅采用 Top1 准确率表示”

基于手工制作特征的方法

基于关节点的方法

基于关节点的方法是将人体骨骼结构简单地视为关节点的集合,利用关节点位置特征、关节点相对于坐标轴的角度特征等建模单个关节点或多个关节点组合的运动来表征人体行为。

基于身体部件的方法

“基于身体部件的方法是将人体骨骼视为一组连 接的刚性段,并利用不同身体部位之间的几何关系 进行行为识别。”

“相比于基于关节点的方法,通过该 方法制作的特征更能保留人体不同部位之间的几何 ,能 够 更 全 面 地 描 述 人 体 骨 骼 的 结 构 特 征 。”

“上述基于身体部件的方法没 有考虑来自不同人体的部件之间的几何关系,所以 仅适用于单人行为识别的场景,在复杂的多人交互 场景下效果不佳。”

基于深度学习的方法

基于循环神经网络的方法

“首先,使用向量序列表示关节点坐标集合;其 次,使用以循环神经网络为主的人体行为识别模型 对向量序列进行序列建模;最后获得行为分类得分。”

“然而,上述两种方法都是利用循环神 经网络对骨骼序列的整体时间动态信息进行建模, 而没有学习到更加细致的时间表达”

“Lee 等人(2017)提出了一种集 成时域滑动 LSTM 网络,该网络不再局限于对运动 状态的长期时间依赖关系进行建模,而是通过改变 时间步长分别捕获短期、中期、长期的时间依赖性, 这有助于对行为进行完整而全面的时间建模,且对 变化的时间动态具有鲁棒性。但该方法用到多个 LSTM 模块,过于复杂,且没有充分考虑到骨骼数据 的空间结构关系。”

“Wang 和 Wang(2017)借鉴双流网络的思想,在时间域上通过时间 RNN 模块来学习行 为的运动特征,在空间域上采用基于邻域关系的遍历方法,按依赖关系的强弱将关节点依次输入到空 RNN 模块中来学习空间特征。这种通过构建双 流循环神经网络来学习关节点的时空信息的方法, 相比于只注重时序信息的方法在识别准确率上有了 大幅度提高。”

“Li 等人(2017)根据 CNN 和 RNN 具有 互补性原则提出并行网络模型,该模型将多种骨骼 特征(相对关节点位置、关节点间距离等)作为 3 LSTM 网络和 7 CNN 网络的输入,识别准确率相比 于单应用的 CNN 或 RNN 效果都好。”

“Song 等人(2016)采用注意力机制,提出一种端到端的时空注意力模型,时间注意力子网络和空间注意力子网络自动挖掘出关键帧和关键关节点。该模型制定交替的联合训练策略 以加速训练过程,并设计正则化交叉熵损失函数来防止模型过拟合。”

“Liu 等人(2017)提出一个全 局 上 下 文 感 知 注 意 力 网 络(global context-aware attention LSTM,GCA-LSTM)。如图 5 所示,该网络主要由两层 LSTM 构成, 1 层生成全局上下文信息, 2 层使用一种循环注意力机制来迭代提升注意力 模型的效果。该方法能对全局上下文信息进行细 化,获得更细致的特征表达。”

“Zhang 等人(2017,2019)提出一种视角自适应网络,并分别 以 RNN 和 CNN 为基础,设计了视角自适应递归神经 网 络(view adaptive recurrent neural network,VARNN)和 视 角 自 适 应 卷 积 神 经 网 络(view adaptive convolutional neural network,VA-CNN)。该方法不需 要先验准则来重新定位骨骼数据,而是通过网络学 习得到三维空间下的坐标转换矩阵,使输入到特征 提取网络的骨骼数据始终保持在最利于识别的观察 视角。”

由于 RNN 善于处理时间序列,基于 RNN 的方法 在提取行为的时序信息上具有天然的优势,但该类方法对骨骼的空间特征提取能力较弱,经常忽略与 行为相关的拓扑结构信息,导致空间特征提取不充 分,影响识别精度进一步提高。

基于卷积神经网络的方法

“为了满足 CNN 的输入要求,一般将骨骼数据编码为 2D 伪图像,其中,图像的行表示 不同的关节,列表示不同的帧,X、Y、Z 的 3D 坐标值 被视为伪图像的 3 个通道,然后采用卷积核提取伪图像的特征,并将提取到的特征用于分类。 使用卷积网络建模骨骼数据的一个关键问题是 如何在保留骨骼序列的时空信息的同时将骨骼序列转换为伪图像。”

“Du 等人(2015a)将 5 个身体部分的 串联作为一帧,三维坐标对应 R、G、B 这 3 个通道,这 样获得的伪图像非常清晰地表示出每个身体部分的运动特征的空间分布,人体结构的空间全局信息明显。但该方法无法挖掘关节的运动方向及运动速度 信息,使得网络性能十分有限。”

“Wang 等人(2016)将关节点坐标在时间上的差分映射到 3 个正交平面获得保留了空 间信息的关节轨迹图像。然后使用色图(颜色映射 表,是一种将数值映射为颜色的方法)将关节轨迹映 射为颜色图像,颜色的变化表示关节运动的方向,颜 色的饱和度和亮度模拟运动幅度和速度的变化。更 进一步,为了描述不同的身体部分,使用 3 种不同的 色图分别映射 3 个身体部位。最后使用卷积网络分 别学习映射在 3 个正交面上的图像,并融合最后得 分,获得最终预测结果。”

“Hou 等人(2018)的工作不再使用关节点坐标在时间上的差分,而是直接将关节点坐标映射至 3 个正交平面,并采用与 Wang 等人 (2016)工作相同的颜色编码技术获得同时具有空间 和时间信息的骨骼光谱图。上述两种骨骼数据的伪 图像表示方法使得用标准的 CNN 模型学习骨骼序 列中的“动态”特征成为可能。”

“Ke 等人(2017)将 骨骼序列剪切成 3 个片段,每个片段中包含 4 个灰度 图,该灰度图通过计算参考点与每个关节点的相对 位置而得到。该方法所构建的伪图像聚合了多个具 有不同空间关系的帧,提供了关节空间结构的重要 信息。”

“Yang 等人(2019)认为以固定顺序将关节点 拼接为矩阵会导致关节点的结构信息丢失,对此提出了一种保留空间关系的树结构骨骼图像表示法, 采用深度优先的树遍历顺序重新设计骨骼表示,以 增强伪图像的语义信息

Caetano 等人(2019)在树 结构骨骼图像表示法的基础上,结合关节之间的不 同空间关系,提出一种基于树结构和参考关节的三 维行为识别的骨骼图像表示方法。该方法能够加强 关节对的空间结构关系,获得更丰富的空间上下文 信息。

“Li 等人(2018a)提出一种时空共现性特征学习的端到端卷积神经网络模型。该网络先沿着关节维度学习关节的点特征,然后将该特征 进行转置,把每一个关节都作为一个通道,随后逐步 聚合所有关节的全局特征。该方法学习到了关节与 关 节 之 间 的 共 现 性 特 征 ,提 高 了 特 征 的 表 示 能 力 。”

“Liang 等人(2019)提出 三流卷积网络,该网络可以利用多个特征之间的互补性和多样性,联合处理关节点坐标、骨骼段和关节 运动信息,网络的结构如图所示。”

“虽然基于 CNN 的方法能够同时处理时空信息, CNN 在处理具有拓扑属性的人体骨架图时并不 完全适用,图卷积的出现改变了这一现状。”

基于图卷积网络的方法

“Yan 等人(2018)根 据人体动力学知识,首次将图卷积应用到基于骨骼 信息的人体行为识别中,提出一种时空图卷积网络 (spatial temporal graph convolutional network,STGCN)。ST-GCN 模型的设计如图 9 所示,首先构造 图结构:将人体的关节点作为图的节点,节点的属性是关节点在空间中的位置坐标。图中的边分为两种类型:空间边和时间边。空间边是关节点之间的连 接,反映它们在人体中的自然结构。时间边是同一关节点在相邻帧之间的连接,反映它们在时间上的 连续性;其次,将骨骼数据送入到以 S-GCL 和 T-GCL 交替连接的时空图卷积网络中提取空域和时域特 征;最后通过全连接层和 softmax 层获取行为种类。”

分区策略,按照人体结构将 Di 划 分为 3 个子集:根节点、向心节点和离心节点。其 中,根节点是节点本身,向心节点表示到人体重心的 距离比根节点到重心的距离更近的关节点的集合, 离心节点表示到人体重心的距离比根节点到重心更 远的关节点的集合。”

后续大量工作在 Yan 等人(2018)的基础上进行了改进:

1)图结构的优化;

2)网络的轻量化;

3)时空特征的优化,即针对辨别性时间和空间特征的提取进行深入研究;

4)关节缺失和噪声的优化,即针对关节点缺失、噪声这类特殊场景下的 问题展开研究。

图结构的优化

“受到基于部分的可变形模型(deformable partbased models,DPMs)(Felzenszwalb 和 Huttenlocher, 2005)的启发,Thakkar 和 Narayanan(2018)基于人体的结构将人体骨骼图分成 4 个子图,使用基于身体 部分的图卷积网络捕捉每个身体部件的高层语义表 达,同时学习身体部件之间的依赖性,但该方法设计 的图结构仍是预定义的,缺乏灵活性。”

“,Shi 等 人(2019a)提 出 的 二 流 自 适 应 图 卷 积 网 络(twostream adaptive graph convolution network,2s-AGCN) 将图结构参数化,骨骼图可随着网络参数一起优化, 这种方法增加了网络的通用性,相比于固定的图结 构,可优化的图结构更能适应不同数据样本。

Li 等 人(2019)同样扩展了现有的骨骼图,提出 AS-GCN (actional-structural graph convolutional network),设 计了动作链接和结构链接两种图结构,学习没有物 理连接的关节点之间的依赖性。该模型过于复杂, 但是该模型开创性地扩展到行为预测领域,为后续 基于骨骼信息的行为预测研究提供了新思路。

Shi 等人(2019b)以关节为节点、骨骼为边计了一个有向无环图,建模关节点和骨骼段之间的空间依赖 性以及它们之间的方向信息,并根据有向图的结构 更新节点和边的信息。该方法虽然取得了很好的效 果,但其参数及计算复杂度远超先前的研究。

Peng 等人(2020)转向神经体系结构搜索(neu⁃ ral architecture search,NAS),第一个提出用于骨骼行为识别的自动设计的 GCN。具体来说,NAS-GCN 探索了节点之间的时空相关性,并构建了一个具有多种动态图模块的搜索空间。此外,该方法引入了多跳跃模块,并希望打破一阶近似所带来的表示容 量的限制。该工作证明了高阶近似和分层动态图模 块的有效性。

Gao 等人(2019)引入图回归思想,求解在连续帧上对图拉普拉斯矩阵建模的优化问题, 最终得到最优的图拉普拉斯矩阵,优化后的图不仅 增强了图的稀疏性,而且能够充分表示关节点分别 在时间和空间上的连通依赖性强弱。”

纵观图结构优化的工作,其主要思路是打破固 定图结构带来的限制,使图能够动态、高效地更新, 以适应不同的行为类别。

网络的轻量化

“,Cheng 等人(2020)提出移位图卷积 网络,该网络使用移位图运算和轻量级逐点卷积代 替正则图卷积,计算复杂度降低了数十倍。在空间 域上通过移位操作使每一个关节都能与其相应的邻 域相关联,增大了空间感受野,从而增强了无物理连 接的关节点的相互依赖关系;在时间域上,通过通道 移位操作将相邻特征图上的时间信息混合在一起, 时间感受野相应地被扩大,从而达到增强时间特征 建模的目的。

Song 等人(2020)将瓶颈结构应用到图 卷积网络中,提出的 ResGCN(residual graph convolu⁃ tional network)大大减少了可学习参数的数量,最多 比其他模型少 34 倍。ResGCN 使用的残差结构和瓶 颈结构虽然极大地降低了训练难度、模型复杂度,但 该方法为了弥补准确率上的不足设计了较为复杂的 基于身体部分的注意力机制,使得模型的可读性降 低。

Song 等人(2023)进一步将深度可分离卷积应用 ,并 MS-G3Dmulti-scale G3D)(Liu 2020b)的 ,提 出 了 EfficientGCN(efficient graph convolutional network), 该方法相比于 ResGCN 的准确率进一步得到提升, 并涉及更少的参数量和计算复杂度。”

时空特征的优化

“Si 等人(2019)提出的注意力增强图卷积 LSTM 网 络(attention enhanced graph convolutional LSTM network,AGC-LSTM) GCN 算子嵌入至 LSTM 算法 ,因此,该方法不仅能捕获具有辨别性的时间和空 间特征,而且能探索到空域和时域中的共现关系,提 高了模型的高层时空语义信息的学习能力。此外, AGC-LSTM 在空间维度上,利用注意力机制增强活 跃关节点的特征;在时间维度上,利用时间分层结构 增大时域感受野,进一步提高了模型的时空建模能

类似地,Ding 等人(2019) GCN 与双向递归神 经网络相结合,提出注意力增强的循环图卷积网络 (attention-enhanced recurrent graph convolutional net⁃ work,AR-GCN)。”

“Wu 等人 (2019) ST-GCN 的基础上,引入了空间残差层和 密集连接模块,利用空间残差层来提取更精确、更有 意义的时空特征,并通过融合时空特征来增强时空 信息。密集连接模块能够充分利用骨骼的全局信 息,提高模型的鲁棒性。

Chen 等人(2021)提出一种 双头时空图卷积网络,该网络能够同时提取粗粒度 的上下文信息和细粒度的局部特征,以高效的方式 联合捕捉行为的动态模式。此外,交叉注意机制的 提 出 ,使 两 个 粒 度 上 的 时 空 特 征 相 互 交 流 、相 互 增 强。

Liu 等人(2020b)将多尺度思想引入至 GCN 中, 分别使用多个不同尺度的卷积对时间和空间建模, 获得的特征具有跨时空维度的多尺度感受野,实现 了有效的多尺度时间和空间建模。 上述工作忽视了语义的重要性,且高度依赖于 大体量的网络进行行为识别。

Zhang 等人(2020)将 关节点的类型(头、手、膝盖等)和帧的索引作为网络 输入的一部分,以增强特征的高级语义信息表达能 力。此外,该方法引入关节级模块和帧级模块的串 联结构,分别挖掘关节点间的空间依赖关系和帧间 的时间依赖特性。该方法首次引入高级语义信息, 设计的网络更高效,可解释性更强。”

关节缺失和噪声的优化

“在使用基于骨骼信息的人体行为识别方法时, 通常假设获取的骨骼数据是准确的、完整的。然而, 无论是通过姿态估计算法还是高精度深度相机捕捉关节点,得到的关节点坐标往往是不完整的或具有噪声的,这将影响到模型的识别性能。”

“Song 等人(2019)提出一种多流关节点激活图卷 积神经网络。首先,该网络采用注意力机制计算每 一 流 的 激 活 图 ,激 活 图 用 来 表 示 关 节 点 是 否 活 跃 。 然后通过累加前一流的激活图来指导新一流的学习 过程,网络的每一流只负责从当前未激活的关节中 学习特征。该方法虽然可以更全面地捕捉不活跃关 节点的特征,提高对有噪声或缺失数据的识别能力, 但所采用的多流结构给训练、推理过程带来了计算 负担。

相比之下,Li 等人(2021)提出的姿态改进图 卷积网络不仅可以对具有噪声或缺失的关节进行矫 正,而且在网络早前采用降低时间分辨率的方式,实 现网络的轻量化。

Yoon 等人(2022)提出的 PeGCN (predictively encoded graph convolutional network)是 一种对潜在空间进行预测编码的图卷积网络。在训练阶段,PeGCN 通过从潜在空间上的噪声样本中预测完整样本来学习特征,获取噪声骨架的鲁棒表达。 该方法更适用于骨骼数据中存在较多不完整或较多 噪声的行为识别任务”

基于 Transformer 的方法

“Plizzari 等人(2021)引入空间自注意力模块动 态构建骨骼的空间特征,引入时间自注意力模块学 习骨骼在时间方向上的动态信息,同时,时间自注意 力模块克服了标准时间卷积的局部性,使跨帧的远 距离依赖特征提取成为可能。该工作证明了空间自注意力模块可以取代空间图卷积操作,并且获得的 特征更灵活、动态表示能力更强。然而,该方法只关 注到帧内不同关节点之间的相关性,不同帧上的不 同 关 节 点 之 间 的 依 赖 性 没 有 被 考 虑 到 。

为 此 ,Qiu 等人(2022)首先将骨骼序列划分为几个不重叠的部 分(元组),然后使用时空元组自注意力模块捕捉连 续帧之间不同关节的相关性。此外,该方法提出的 帧间特征聚合模块,在由元组构成的时间维度上聚 合特征,进一步提高了模型的识别能力。

与上述方 法直接使用 Transformer 算子替代图卷积算子不同的 是 ,Bai 等 人(2022)提 出 一 种 Trans former,同时利用图卷积的局部拓扑性和 Transformer 的全局上下文捕捉能力。该方法充分发挥了图卷积 和 Transformer 的优势,其识别效果远超上述方法。

此外,Pang 等人(2022)针对多人交互行为,提 出一种新的基于 Self-Attention 的方法来建模交互人 物 身 体 部 位 之 间 的 相 关 性。 具 体 地 , Self-Attention 模块在人体交互部位的语义信息和距 离信息两个角度上进行建模。该方法首次聚焦人体 交互部分,为以后的多人交互行为识别提供新思路。

结果

“NTU60 数据集是普遍应用的骨骼行为数据集,随着图卷 积 技 术 的 出 现 ,研 究 重 心 逐 步 向 图 卷 积 方 法 转 移 。

ST-GCN 作为基于图卷积方法的开山之作,在 NTU60 数据集的 X-Sub X-View 两个基准上的识别准确率分别为 81. 5% 88. 3%后续算法分别在图结 构的优化(如 PB-GCN、2s-AGCN)、改进模型的速度 (如 PA-ResGCN、EfficientGCN)、提高模型建模辨别 性时空信息的能力(如 AGC-LSTM)以及针对缺失关 节点的改进(如 PR-GCN)等方面展开了深入研究。

目前为止, NTU-60 数据集上识别率表现最好的算 法是 HGCT,在 X-Sub 和 X-View 两个基准上的识别准确率分别为 92. 2% 和 96. 5%。该方法采用先进的 Transformer 技术替代传统卷积算子来提升网络性 能,并取得了较高的识别率。

在模型的参数量和计算复杂度方面,表现最好的算法是 EfficientGCN,该 方法同时兼顾速度与精度,参数量和计算复杂度与 ST-GCN 持平,精度却比 ST-GCN 高出 10. 2%(NTU60 数据集的 X-sub 基准)。

上述方法虽然在 NTU-60 和 NTU-120 数据集上 取得了优异的识别效果,但是在 Skeleton-Kinetics 数据集上的效果不佳。

主要原因是 Skeleton-Kinetics 数据集为真实场景下所采集的,存在大量遮挡、光照 变化以及摄像机运动等影响因素,导致提取到的骨 骼数据精度不高,影响行为识别效率,且该数据集包含的种类较多,具有多种人—物交互的行为。”

局限性

“1)人体结构高度复杂,现有采用少量关节点表 示人体行为特征的识别模型,限制了其对非典型运 动等复杂行为的识别能力,可以考虑采用结构性和 局部性增加关节点的方法,加强人体目标性结构的 特征表示,提升对复杂行为的识别度。 健康成年人的身体结构包括 206 块骨骼、200 多 个关节,为了维持人体在静态和动态时的平衡,关节 之间存在着复杂的关联。在行为识别中,通常采用 15~30 个关节点的坐标表征人体空间结构,识别一 些如跑步、走路、蹦跳等简单的行为时,识别率几乎 可以达到 100%。但当识别一些如玩手机、玩魔方等 复杂行为时,即使是目前最先进的算法,识别效果仍 然不佳。未来的研究可以考虑增加细粒度关节(面 部、手、脚等)例如 Trivedi 等人(2021)提出的 NTUX 数据集,在 25 个关节点之外增加了 51 个面部关节 42 个手指关节,该骨骼表示方法在现有的算法上 表现出色。

2)目前很少有模型能够很好地调适人体外观多 样性带来的不利影响,可以考虑引入关节点间的相 对位置特征应对个体差异带来的挑战,增强模型的 鲁棒性。 不同个体之间存在着明显的差异性,例如男人 和女人之间的差异、成人和小孩之间的差异,这些差 异主要体现在骨骼的尺度差异。这些差异将给行为“识别算法提出更高的要求。在 NTU 数据集的跨人 物验证基准上的识别效果习惯性地比跨视角验证基 准低可以证明这一点,如表 4 所示。可能的解决方 案是结合各种丰富的骨骼特征,不局限于关节点的 位置信息,考虑关节间的相对位置或关节之间的角 度 信 息 ,对 抗 人 体 尺 度 的 变 化 。 Qin 2022)以 3 个关节点之间的角度信息作为输入特 征,相比于坐标特征,该特征更能反映人体部位的相 对运动,增强了对个体变化的鲁棒性

3)图卷积网络体量大、结构复杂,训练和推理速 度慢,实时性不好,识别模型应用的限制性大,可以 考虑引入具有“高保真”的轻量化机制,提高实时性 的同时兼顾精度。 现有的基于骨骼的行为识别方法普遍存在模型 复杂、计算量巨大等缺点,尤其是图卷积相关方法。 目前已有研究团队针对图卷积方法参数量大的缺点 进行改进,如 Song 等人(2020,2023)提出的 ResGCN 和 EfficientGCN,虽然降低了模型的复杂度和参数 量,但准确率有限,且均需嵌入复杂的注意力机制去 弥补精度上的缺陷。对此可以尝试其他一些应用在 图像分类任务中的方法,如分组卷积(Krizhevsky 等, 2017)或通道洗牌(Zhang 等,2018)等,将图卷积方 法与上述机制相结合,提升通道之间的信息交互的 同时降低模型复杂度,获取更多的上下文信息,在不 损失甚至提升精度的同时轻量化网络。

4)图卷积网络相对来说层数都较浅,导致提取 特征的丰富性受限,可以考虑通过结构性地加入归 一化和残差网络等层深拓展手段,加深模型层数以 提取更深层次特征。 CNN 深度学习模型往往可以通过堆叠大量的 卷积层实现特征的精细化提取,以此提高模型的性 能,例如 Resnet (residual network)模型(He 等,2016), 其深度可以达到上百层。用于行为识别的图卷积网 络的层次普遍不深,且当层数过多时获取到的节点 特征过于平滑(Li 等,2018b),而浅层结构影响对深 层语义信息的挖掘,不利于识别。在未来工作中,可 以考虑同时使用归一化和残差结构,除了减缓过平滑现象外,归一化和残差操作都能够提升训练的稳 定性和收敛性,使得深层图神经网络的训练更加容 易,损失曲线更加平滑。

5)由于数据源的限制,基于骨骼信息的模型对 于人—物交互行为识别度不高,可以考虑引入多种” “其他模态信息,改善数据源的结构和内容,从而提升 对交互行为的识别精度。 ,目 NTU-60 NTU-120 两个大型骨骼数据集上的识别 准确率已经达到相当高的水准。骨骼数据比较适合 辨别单纯的人体行为,当识别一些人—物交互的行 为 时 ,识 别 效 果 并 不 佳 ,例 如 , SkeletonKinetics 数据集上的最佳识别精度为 49. 1%Duan 2022)。 原 因 在 于 Kinetics 数 据 集 中 包 含 多 种 人—物交互的行为,例如吃汉堡、吃蛋糕等,仅使用 骨骼数据就失去了对物体信息的关注,在辨别动作 特征几乎相同但动作对象不同的行为时表现不佳。 传感器技术的发展,给多模态的行为识别带来 更低成本、更高效的可能。人体的多模态信息包括 RGB 视频、深度信息、红外信息和骨骼信息等,不同 的模态信息之间具有强相关性,又具有一定的互补 特性。例如,骨骼信息虽然在识别单纯的人体行为 时表现出色,但由于其失去了对背景信息的关注,不 适合用做识别人—物交互类行为,而 RGB 视频包含 背景信息,可以提供物体信息,给识别人—物交互类 行为带来提升。未来,可以将骨骼信息和 RGB 信息 相融合,在保留骨骼信息的简洁性的同时,增加背景 信息,获得更有益于识别人—物交互行为的特征。

6)行为数据标注难度大,可以考虑采用无监督 学习、小样本学习等技术减少对标注数据的依赖度, 增强算法对实际应用的适应性。 视频数据集的样本数量巨大,且人的行为种类 丰富多变,对视频数据的有效而准确的标注需耗费 大量资源。针对这一问题,可以使用无监督或小样 本方法以消除对标注数据的依赖。且无监督方法和 监督方法的性能差距正在不断缩小。例如 Paoletti 等人(2022)基于卷积自编码器和自适应拉普拉斯正 则化学习未标注的骨骼序列的特征表示,并将该特 征 表 示 输 入 到 一 个 分 类 器(例 如 ,1-nearest neigh⁃ bor),以验证及评估模型。另一个可行的方向是进 行 小 样 本 行 为 识 别 研 究 ,如 Memmesheimer 等 人 (2020)通过度量学习方法,将行为识别问题简化为 嵌入空间中的最近邻搜索问题,仅需对少量新类别 (与训练集包含的种类不交叉)样本标注即能完成识 别任务。但是,上述方法在 NTU-120 数据集上的表 现并不出色,在测试集上的准确率仅为 50% 左右, 小样本的行为识别处于研究初级阶段。

7)现有行为识别方法不能满足事故突发等场景 下的快速决策的功能需求,可以考虑引入轨迹预测 等趋势性方法,以识别 + 预测的算法能力应对现 实应用需求。 行为识别任务的主要目标是识别已经发生的行 为 ,但 是 在 一 些 场 景 中 ,如 应 用 于 反 恐 防 暴 监 测 系 统、自动驾驶系统的行人行为监测技术,人们希望在 行为发生之初就能预测到行为人下一步要做什么, 然后留给人们更多的时间去应对突发的事件。Li 等 人(2019)在研究行为识别任务的同时,将模型扩展 到对骨骼姿态预测的研究,但没有详细的定量分析 研究,只有初步的定性分析,未来可以设计更精细化 的指标对预测的姿态进行定量的评价,如类似行人 轨迹预测所使用的平均位移误差和最终位移误 差等。

8)现有方法都存在对并发性行为识别度不高的 问题,可以考虑借鉴多标签文本分类方法的成功经 验,将目前的单标签行为识别拓展到多标签模式,独 立而后交互地识别并发性行为。 当前的行为识别所采用的数据通常是一个视频 序列对应一种行为标签。然而,一个视频序列可能 会对应多个类别标签,并且每个行为之间可能存在 一定的关联性。行为可同时具有多种并列的标签类 别,例如边走路边打电话;也可同时具有父子继承 关系的多标签类别,例如跳舞和跳芭蕾在未来, 可以借鉴多标签文本分类任务所使用的方法进行多 标签行为识别(Lan 等,2020)。例如,在多标签文本 分类中,改变输出概率的计算方式和交叉熵的计算 方式(Huang 等,2021),使每个类之间相互独立,而不是互斥的。此外,在输出层设置多个全连接层,使 每一个全连接层对应一个标签,也可以完成多标签分类任务。”

结论

“基于骨骼信息的人体行为识别是人体行为识别 领域的重要研究方向,也是计算机视觉领域的热门 课题之一。

随着深度学习的发展和大型数据集的提 出,基于骨骼信息的人体行为识别在基础理论和技 术方法等方面取得了显著的进步。

本文首先整理了 主流的用于骨骼行为研究的数据集,着重讨论了各 种数据集的特点。

其次,从模型所使用的基础网络角度将基于骨骼信息的行为识别方法分为基于手工 制作特征的方法、基于 RNN 的方法、基于 CNN 的方 法、基于 GCN 的方法以及基于 Transformer 的方法, 全面分析了各类方法的优缺点,并以全新的分类方 法重点讨论了基于 GCN 的方法。最后对比不同算 法的定量效果,

总结出一些存在的问题和未来可行 的研究方向。

基于以上回顾和展望,希望能给研究 人员提供一个完整的基于骨骼信息的行为识别领域 知识,使相关研究人员能从中获得一些创新的思路和启发。”


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值