目录
摘要
Spatial Temporal Graph Convolutional Networks 是一种基于骨架的动作识别模型,由传统的图卷积网络改进而来,通过引入时空图卷积操作解决了先前工作中对时空信息建模不足的问题。该模型将骨架序列建模为时空图,利用空间图卷积捕捉关节间的空间关系,并通过时间卷积建模时间动态,从而有效提取动作的时空特征。ST-GCN在多个骨架动作识别数据集,如:NTU RGB+D和Kinetics 上取得了显著性能提升,超越了传统手工特征方法和基于CNN、RNN的深度学习方法,证明了其在骨架动作识别任务中的优越性和有效性。
Abstract
Spatial Temporal Graph Convolutional Networks is a skeleton-based action recognition model, evolved from traditional Graph Convolutional Networks. It addresses the limitations of previous work in modeling spatiotemporal information by introducing spatiotemporal graph convolution operations. The model represents skeleton sequences as spatiotemporal graphs, utilizing spatial graph convolution to capture spatial relationships between joints and temporal convolution to model temporal dynamics, thereby effectively extracting spatiotemporal features of actions. ST-GCN has achieved significant performance improvements on multiple skeleton-based action recognition datasets (such as NTU RGB+D and Kinetics), surpassing traditional handcrafted feature methods and deep learning approaches based on CNN and RNN, demonstrating its superiority and effectiveness in skeleton-based action recognition tasks.
ST-GCN
论文地址:Spatial Temporal Graph Convolutional Networks
项目地址:ST-GCN
在基于骨架的动作识别任务中,人体动作通常由一系列关节点的运动序列表示。传统方法难以直接处理这种非欧几里得数据结构,且无法有效建模关节之间的复杂关系。ST-GCN通过引入图卷积网络的思想,将骨架数据表示为图结构,并结合时间维度,提出了一种新的时空图卷积操作,并解决了以下问题:
- 空间建模不足:传统方法难以捕捉关节之间的空间关系;
- 时间建模不足:传统方法对时间动态的建模能力有限;
- 手工特征依赖:传统方法通常依赖手工设计的特征,缺乏端到端的学习能力。

ST-GCN的核心思想是将骨架序列建模为时空图,通过这种图结构,ST-GCN能够同时建模空间和时间维度上的依赖关系。
图卷积网络
传统的卷积神经网络在处理图像等规则网格数据时表现出色,但其卷积操作依赖于数据的规则结构,无法直接应用于图结构数据。图结构数据具有以下特点:
- 非欧几里得结构:节点之间的连接关系不规则;
- 节点特征多样性:每个节点可能具有不同的特征;
- 全局依赖关系:节点之间的关系可能涉及整个图。
GCN通过在图结构上定义卷积操作,解决了传统CNN无法处理图数据的问题。
基本思想
图卷积的核心思想是通过聚合节点及其邻居的特征来更新节点的表示,具体如下步骤:
- 邻居聚合:对于每个节点,聚合其邻居节点的特征;
- 特征变换:对聚合后的特征进行线性变换和非线性激活;
- 归一化:对聚合结果进行归一化,确保特征尺度一致。
数学表示
是第 l 层的节点特征矩阵,
是输入特征矩阵;
是添加了自环的邻接矩阵,A 是原始邻接矩阵,I 是单位矩阵;
是
的度矩阵,
;
是第 l 层的可学习权重矩阵;
是非线性激活函数,如:ReLU。
步骤
(1)输入特征矩阵:输入是节点的特征矩阵,其中 N 是节点数,C 是特征维度;
(2)邻居聚合:通过邻接矩阵 A 聚合邻居节点的特征;
(3)归一化:对聚合结果进行归一化,确保特征尺度一致;
(4)特征变换:对归一化后的特征进行线性变换和非线性激活;
(5)输出特征矩阵:输出是更新后的节点特征矩阵。
模型架构

输入表示
ST-GCN的输入是基于骨架的动作序列数据,假设一个骨架序列包含 T 帧,每帧有 N 个关节,每个关节的特征维度为 C ,则输入数据可以表示为:
T 是时间帧数,N 是关节数,C 是每个关节的特征维度。
时空图构建
ST-GCN将骨架序列建模为时空图 ,其中:
- 节点 :表示所有帧中的所有关节,总节点数为
;
- 空间边:表示单帧内关节之间的自然连接,如:手与肘相连;
- 时间边:表示同一关节在连续时间帧之间的连接。
时空图的构建使得模型能够同时建模空间和时间维度上的依赖关系。
时空图卷积
ST-GCN的核心操作是时空图卷积,它由两部分组成:空间图卷积和时间图卷积。
空间图卷积
空间图卷积用于捕捉单帧内关节之间的空间关系。具体步骤如下:
(1)邻居定义:对于每个关节(第 t 帧的第 i 个关节),定义其邻居集合
,包括:
- 自身节点

最低0.47元/天 解锁文章
1032

被折叠的 条评论
为什么被折叠?



