MS-AAGCN：Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks

最新推荐文章于 2025-03-10 11:54:13 发布

KrystalKarlieKarina

最新推荐文章于 2025-03-10 11:54:13 发布

阅读量3.2k

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/LoveKKarlie_/article/details/115064061

版权

MS-AAGCN是一种骨架动作识别方法，通过多流注意力增强的自适应图卷积神经网络，端到端学习图的拓扑结构。该模型提出STC注意模块，关注重要关节、帧和通道，同时整合关节、骨骼和运动信息。通过全局图和独立图的学习，模型能适应不同数据样本，提高了识别性能和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks

CVPR2019

基于骨架的多流自适应图卷积网络动作识别

主要内容：

提出一种多流注意力增强的自适应图卷积神经网络l multi-stream attention-enhanced adaptive graph convolutional neural network (MS-AAGCN)，端到端自适应地学习图的拓扑结构。
提出STC注意模块并嵌入到每个卷积层，帮助模型学习选择性地专注于区分性关节、框架和通道，以便与其他参数一起共同学习和更新。这种数据驱动的方法增加了模型的灵活性和泛化能力。
首先构造骨架数据的二阶信息（骨骼）并将其与一阶信息（关节）结合，这为识别性能带来了显着的改善；进一步提取关节和骨骼的运动信息，并将这四种方式集成到一个多流框架中。
证实了自适应学习的图的拓扑结构比基于人体的图更适合于动作识别任务。

创新点：

在每个图卷积层中嵌入了一个STC-attention模块，有助于模型更加关注重要的节点、帧和特征。
在统一的多流框架中明确地对关节、骨骼和相应的运动信息进行建模，进一步增强了性能。
将骨架数据与骨架引导的RGB数据融合，这带来了额外的改进。
未来的工作可以集中在如何更好的融合RGB模态和骨架模态。将基于骨架的动作识别算法和姿态估计算法结合在一个统一的框架内进行研究也是值得的。

以前的GCN-based存在的问题：

在所有模型层和输入数据上，图的拓扑结构是启发式设置并固定的，并固定在所有模型层和输入数据上，不适合GCN的层次结构和动作识别中数据的多样性。
对人体动作识别来说更具信息性和辨别性的骨架数据二阶信息：骨骼的长度和方向很少被研究。

MS-AAGCN，多流注意力增强自适应图卷积神经网络。图拓扑可以基于输入数据以端到端的方式统一或单独学习，这种数据驱动的方法增加了用于图形构建的模型的灵活性，并为适应各种数据样本带来了更多的通用性。自适应图卷积层通过时空通道注意模块得到进一步增强，有助于模型对重要关节、框架和特征给予更多关注。多流框架同时对关节和骨骼信息以及他们的运动信息进行建模，识别准确性显著提高。

与使用RGB视频进行识别的传统方法相比，基于骨架的动作识别对动态环境的强大适应性和复杂的背景。基于深度学习的基于骨架动作识别的方法手动结构作为一系列关节坐标向量或伪图像，被馈送到RNN或CNN中以产生预测。将骨架数据表示为矢量序列或2D网格不能完全表达相关关节之间的依赖性。骨架自然地作为非欧几里德空间中的曲线图，其中关节作为顶点和他们在人体中的自然连接作为边缘。以前的方法无法利用骨架数据的图形结构并且难以将具有任意形式的骷髅概括。

ST-GCN：首先用GCN对骨架数据建模，基于人体关节自然连接构建空间图并在连续帧中相应关节之间添加时间边缘，提出一种基于距离的采样函数来构造图卷积层。ST-GCN的缺点：

骨架图是基于人体自然连通性启发式预定义的，不能保证对动作识别是最佳的。预定义的基于人体的图形中彼此相距很远，有的时候不能捕获较远部位的依赖关系。
神经网络是分层的，不同层包含不同级别的语义。应用于ST-GCN的图拓扑在所有层上都是固定的，缺乏对不同层多级语义建模的灵活性和能力。
对所有不同动作类别的样本，一个固定的图结构对于不同动作类的所有样本可能不是最优的。图形结构应该是数据相关的。

为解决上述问题，文章提出一种新的自适应图卷积层，为图卷积参数化两种自适应图。一种称为全局图global graph，根据从数据集中提取的知识通过学习图邻接矩阵获得。学习过程使用基于任务的损失，所获得的图拓扑比先前的基于人的图更适合于动作识别。另一种是独立图individual graph，边缘是根据图顶点之间的特征相似性构建的。由于数据样本多种多样，该模块可以为每个输入捕获唯一的结构。使用门控机制将这两种图形融合在一起，这可以自适应地调整它们在每个模型层中的重要性。两个图都在不同层上进行了单独优化，因此可以更好地拟合神经网络的层次结构。这种数据驱动的方法增加了用于图构造的模型的灵活性，并带来了更多的通用性以适应各种数据样本。

先前方法只用了骨架数据的一阶信息：包含关节的2D或3D坐标，没有利用表示两个关节之间的骨骼特征的二阶信息。骨骼的长度和方向对动作识别会提供更多的信息和判别力。骨骼信息公式化为从源关节指向目标关节的向量。两个关节和骨骼之间的坐标差连续的帧作为运动信息来帮助建模动作时间演变。

文章在许多方面是以前工作（ L. Shi, Y . Zhang, J. Cheng, and H. Lu, “Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.）的扩展版本：

优化了所提出的全局图和单个图的合成方案，并引入了一种门控机制来自适应地调整两个图的重要性；
提出STC-attention模块，以针对不同的数据样本自适应地重新校准关节，框架和通道的激活，能够有效地帮助模型关注重要的关节、框架和特征；
将之前的模型扩展到多流框架，该框架集成了关节和骨骼的运动模态；

A。skeleton-based action recognition

与本方法相关的工作

传统方法：设计手工特征模拟人体
- 在Lie group中旋转和平移来编码骨架
- 使用rank pooling方法用ranker的参数表示数据
数据驱动data-driven：
- RNN-based：将骨架数据建模为沿着空间和时间维度的坐标向量序列，其中每个向量表示人体关节
  - （“Hierarchical recurrent neural network for skeleton based action recognition,” CVPR2015）使用分层双向模型来识别骨骼序列，该模型将人体分成不同的部分，并将它们发送到不同的子网络
  - （“An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data.” AAAI2017）在基于的模型中嵌入时空注意模块，使网络能够自动关注骨架序列的判别时空区域
  - （“View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition From Skeleton Data,” CVPR2017）在基于的模型中引入了视图转换的机制，该机制自动将骨架数据转换成更有利于动作识别的角度
  - （“Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning,” ECCV2018）提出了一种具有空间推理(SRN)和时间堆栈学习(TSL)的模型，其中SRN可以捕捉不同身体部位之间的结构信息，而TSL可以对详细的时间动态进行建模
- CNN-based：将骨架数据建模为伪图像
  - （“Interpretable 3d human action analysis with temporal convolutional networks,” CVPR2017）使用一维残差CNN识别关节坐标直接连接的骨架序列
  - （“Enhanced skeleton visualization for view invariant human action recognition,”）提出10种用于骨架编码的时空图像，并使用视觉和运动增强方法对这些图像进行增强
  - （“Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep CNN,” CMEW2017）使用多尺度残差网络和各种数据增强策略进行基于骨架的动作识别
  - （“Skeleton-Based Action Recognition with Gated Convolutional Neural Networks,”）设计了一个排列网络，以学习关节重新排列的优化顺序

B。GCNN：

空间透视法spatial perspective methods：直接对图形顶点及其邻域进行卷积。问题：如何从遗漏顶点和边的隐含顺序的图中构造局部连通的邻域。这些方法总是根据手动设计的规则来提取邻居：
- 根据每个顶点在图中的距离对其邻域进行采样。提出了一种裁剪多余顶点和填充虚拟顶点的归一化算法
- 将视频表示为包含用于动作识别的人和检测到的对象的图形。根据特征相似性和时空关系定义每个顶点的邻域
光谱透视方法spectral perspective methods：使用graph Laplace matrices的特征值和特征向量
- （“The emerging field of signal processing on graphs: Ex-tending high-dimensional data analysis to networks and other irregular domains,” 2013）借助于图形傅立叶变换在频域中执行图形卷积
- （“Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering,” 2016）使用递归切比雪夫多项式作为滤波方案，比以前的多项式滤波器更有效
- （“Semi-Supervised Classification with Graph Convolutional Networks,” arXiv2016）使用谱图卷积的一阶近似进一步简化了这种方法，这个方法遵循空间透视法

A。图结构

空间维度：同一帧中的关节

时间维度：所有帧上的相同关节

在这里插入图片描述

B。图形卷积

对于空间维度，顶点上图卷积运算公式： $f_{out}(v_i)=\sum_{v_j\in{\mathcal{B}}_i}{\frac{1}{Z_{ij}}{f_{in}(v_j)·w(l_i(v_j))}}$ ，其中 $f$ 是特征图， $v$ 表示图的顶点， $\mathcal B_i$ 是 $v_i$ 指定卷积的采样区域，定义为目标顶点 $v_i$ 的1距离相邻顶点 $v_j$