ST-GCN论文Spatial Temporal Graph ConvNet部分

鱼儿会飞吗

于 2024-03-07 08:35:58 发布

阅读量894

点赞数 6

分类专栏：论文精读文章标签：计算机视觉人工智能深度学习卷积神经网络

本文链接：https://blog.csdn.net/qq_34425255/article/details/136522907

版权

论文精读专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍了ST-GCN模型，一种利用卷积神经网络特性处理骨骼动作识别的方法。通过构建空间时间图表示骨骼序列，该模型在局部区域对关节轨迹进行建模，实现了骨架序列的分层表示，适用于不同关节数量和连接的数据集，如Kinetics和NTURGB+D。

摘要由CSDN通过智能技术生成

一、概要

在执行活动时，人体关节在小的局部组中移动，称为“身体部位”。现有的基于骨架的动作识别方法已经验证了在建模中引入身体部位的有效性。我们认为，这种改进很大程度上是由于与整个骨架相比，部分将关节轨迹的建模限制在“局部区域”内，从而形成了骨架序列的分层表示。在图像对象识别等任务中，通常利用卷积神经网络的固有特性来实现分层表示和局部性，而不是手动分配对象部分。这促使我们将cnn的吸引人的特性引入到基于骨架的动作识别中。这一尝试的结果是ST-GCN模型。

二、Pipeline Overview

基于骨骼的数据可以从动作捕捉设备或姿态估计算法从视频中获得。通常数据是一个帧序列，每一帧都会有一组关节坐标。鉴于人体关节的排列顺序，以二维或三维坐标的形式，以关节为图节点，以人体结构和时间的自然连通性为图边，构建时空图。因此，ST-GCN的输入是图节点上的关节坐标向量，这可以被认为是基于图像的cnn的模拟，其中输入是由驻留在2D图像网格上的像素强度向量形成的。将对输入数据应用多层时空图卷积操作，并在图上生成更高级的特征图。然后，它将被标准的SoftMax分类器分类到相应的动作类别。整个模型以端到端反向传播的方式进行训练。现在我们将讨论ST-GCN模型中的组件。

三、Skeleton Graph Construction

骨骼序列通常由每帧中每个人体关节的二维或三维坐标表示。先前使用卷积进行骨骼动作识别的工作，连接所有关节的坐标向量以形成每帧的单个特征向量。在我们的工作中，我们利用空间时间图来形成骨架序列的层次表示。特别是，我们在具有 N 个关节和 T 帧的骨架序列上构建了一个无向空间时间图 G = (V, E)，具有身体内和帧间连接。

在这个图中，节点集 V包括骨架序列中的所有关节，作为 ST-GCN 的输入，节点 F (vti) 上的特征向量由帧 t 上第 i 个关节的坐标向量以及估计置信度组成。

我们分两步在骨架序列上构建空间时间图。首先，根据人体结构的连通性，将一帧内的关节进行边缘连接，如图1所示。然后将每个关节连接到连续帧中的相同关节。因此，这种设置中的连接是自然定义的，无需手动分配部件。这也使网络架构能够处理具有不同数量的关节或关节连接的数据集。例如，在Kinetics数据集上，我们使用来自OpenPose的2D姿态估计结果工具箱，输出18个关节，而在NTURGB+D数据集上，我们使用三维关节，跟踪结果作为输入，产生25个关节。STGCN可以在这两种情况下运行，并提供一致的优越性能。所构建的时空图示例如图1所示

形式上，边集 E 由两个子集组成，第一个子集描述了每一帧的骨架内连接，表示为 ES = {vtivtj |(i, j) ∈ H}，其中 H 是自然连接的人体关节的集合。第二个子集包含帧间边，它将连续帧中的相同关节连接为 EF = {vtiv(t+1)i}。因此，对于一个特定的关节i，EF中的所有边都将随着时间的推移表示其轨迹。

四、参考

百度安全验证

鱼儿会飞吗

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
ST-GCN论文Spatial Temporal Graph ConvNet部分

然后将每个关节连接到连续帧中的相同关节。例如，在Kinetics数据集上，我们使用来自OpenPose的2D姿态估计结果工具箱，输出18个关节，而在NTURGB+D数据集上，我们使用三维关节，跟踪结果作为输入，产生25个关节。鉴于人体关节的排列顺序，以二维或三维坐标的形式，以关节为图节点，以人体结构和时间的自然连通性为图边，构建时空图。在这个图中，节点集 V包括骨架序列中的所有关节，作为 ST-GCN 的输入，节点 F (vti) 上的特征向量由帧 t 上第 i 个关节的坐标向量以及估计置信度组成。
复制链接

扫一扫