ST-GCN模型实现花样滑冰动作分类

深度学习乐园

于 2024-11-05 15:56:23 发布

阅读量2.5k

点赞数 37

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2401_87275147/article/details/142592266

版权

项目源码获取方式见文章末尾！ 600多个深度学习项目资料，快来加入社群一起学习吧。

《------往期经典推荐------》

项目名称
1.【基于CNN-RNN的影像报告生成】
2.【卫星图像道路检测DeepLabV3Plus模型】
3.【GAN模型实现二次元头像生成】
4.【CNN模型实现mnist手写数字识别】
5.【fasterRCNN模型实现飞机类目标检测】
6.【CNN-LSTM住宅用电量预测】
7.【VGG16模型实现新冠肺炎图片多分类】
8.【AlexNet模型实现鸟类识别】
9.【DIN模型实现推荐算法】
10.【FiBiNET模型实现推荐算法】
11.【钢板表面缺陷检测基于HRNET模型】
…

1. 项目简介

本项目实现了A042-ST-GCN模型，用于对花样滑冰动作进行分类。花样滑冰作为一项融合了舞蹈与竞技的运动，其复杂的动作结构和多变的运动轨迹使得动作识别成为一个具有挑战性的任务。为此，本项目利用时空图卷积网络（Spatio-Temporal Graph Convolutional Networks，ST-GCN）进行动作分类。该模型通过对人体骨架的时空数据进行建模，能够有效捕捉动作的时序动态和空间关系，适用于识别花样滑冰中不同类型的动作。A042-ST-GCN是一种基于图卷积网络的架构，结合了时序信息和骨架数据的空间拓扑结构，使得模型能够在复杂的运动场景中具有较高的分类准确率。模型的输入为人体关键点的时序数据，输出为对应的动作类别标签。项目的最终目标是为花样滑冰选手和教练提供智能化的动作识别和分析工具，帮助他们更好地理解运动表现并优化训练策略。

2.技术创新点摘要

通过对项目代码的初步分析，可以得出A042-ST-GCN模型的几个技术创新点：

时空图卷积网络（ST-GCN）的引入：模型利用ST-GCN对花样滑冰动作进行分类。ST-GCN的优势在于其对人体骨骼关键点的时空动态进行有效建模，这使得模型能够捕捉动作的空间结构和时序特征。相比于传统的卷积神经网络（CNN），该模型能够更加准确地分析和分类人体复杂的运动轨迹，尤其是在花样滑冰这种高难度的体育项目中。
轻量化的网络结构设计：模型采用了简洁的网络结构，通过少量卷积核来实现动作分类，保持了较高的计算效率。由于整个模型的核心部分仅涉及三个卷积核，因此它在保证模型性能的同时，减少了计算资源的消耗，适合在实际应用场景中使用，尤其是需要实时识别花样滑冰动作时。
细粒度动作分类：花样滑冰动作分类任务的复杂性在于动作的细粒度分类。跳跃、旋转等动作的类别间差异较大，而同一类动作的内部变化较小。该模型通过对细粒度的分类和处理，使得它可以识别出不同类型的花样滑冰动作，尤其是难以区分的跳跃、旋转和组合动作。
人体关键点识别技术与动作分类的结合：该模型使用人体关键点检测技术，从视频中提取人体骨架关键点信息，再结合ST-GCN进行动作分类。这样使得模型能够更加精确地理解花样滑冰运动员的动作，从而提高分类的准确性。

在这里插入图片描述

3. 数据集与预处理

本项目使用的数据集是花样滑冰动作分类数据集，该数据集包含了大量关于花样滑冰运动员不同动作的视频片段。数据集中每个视频片段都标注了动作类型，并通过人体关键点提取技术获取了运动员的骨架坐标，形成了时序骨架数据。由于花样滑冰动作复杂多样，数据集涵盖了各种典型的花样滑冰动作，如跳跃、旋转、步伐和托举等。此外，该数据集的特点是动作类别多、细粒度高，类间方差大、类内方差小，这对模型的识别精度提出了较高要求。

在数据预处理中，首先需要对人体骨架的时序数据进行归一化处理。由于不同运动员的体型差异、视频拍摄角度不同，直接使用原始坐标会导致模型性能不稳定。为此，所有骨架点坐标都被归一化到一个统一的坐标系中，以消除这些外部因素的影响。

接下来进行数据增强，这在深度学习中尤为重要。通过对原始数据进行水平翻转、随机旋转、时序剪切等数据增强操作，能够有效增加训练数据的多样性，避免模型在训练过程中过拟合。此外，考虑到不同动作的时长不一致，时序数据经过了固定长度的裁剪或填充，保证每个输入样本的长度相同。

在特征工程方面，本项目主要使用了人体骨架的关键点坐标和这些关键点的速度、加速度等运动特征。通过提取这些时空特征，模型可以更好地捕捉动作的动态变化，并区分不同类别的动作。最终，经过预处理后的数据被送入ST-GCN模型进行训练和分类。

4. 模型架构

模型结构的逻辑： A042-ST-GCN模型基于时空图卷积网络（ST-GCN），该模型结合了图卷积网络（GCN）和时间卷积网络（TCN），用于人体骨架关键点的动作识别。模型的主要结构如下：

输入层：模型的输入为人体骨架时序数据，每个样本包含多个时刻的骨架关键点坐标。每个骨架节点通过二维坐标 (x, y) 来表示。
时空图卷积层：核心是通过时空图卷积对人体骨架的时空关系进行建模。骨架被表示为图 G=(V,E)，其中 V 表示节点，即人体的关节点； E 表示边，即关节点之间的连接，包括空间边和时间边。
- 空间卷积：在图中，空间卷积作用于同一时刻的关节点，公式为：
- ```
$$h_v^{(l+1)} = \sum_{u \in \mathcal{N}(v)} \frac{1}{\sqrt{d_v d_u}} W^{(l)} h_u^{(l)}$$
```
- 其中， hv(l) 是第 lll 层节点 vvv 的特征， N(v)表示节点 vvv 的邻居节点集， W(l)是可学习的权重矩阵，dv 和 du分别是节点 v 和邻居节点 u 的度。
- 时间卷积：时间卷积用于同一关节点在连续时刻的特征提取，公式为：
- ```
$$h_v^{(l+1)} = \sum_{t \in T} W^{(l)} h_v^{(l, t)}$$
```
- 其中 T表示时间维度上的窗口，W(l)是时间卷积的可学习参数。
全连接层：将卷积后的特征进行平展，通过全连接层映射为动作类别的概率分布。
输出层：使用softmax函数输出动作分类的预测结果。

模型的整体训练流程：

前向传播：模型将输入的骨架关键点数据通过时空图卷积层进行处理，提取空间和时间维度上的特征。随后经过全连接层，将高维特征映射为具体的动作类别。
损失函数：使用交叉熵损失函数计算预测类别与真实类别之间的误差：

$TT$

其中 yi为真实标签，y^i为模型的预测概率。
优化器：采用Adam优化器进行梯度下降，更新模型的权重。

评估指标：

准确率（Accuracy） ：用于评估分类任务的性能，通过计算预测正确的样本占总样本的比例来衡量模型的分类效果。
混淆矩阵：用于分析模型对各个动作类别的分类情况，判断模型是否对某些类别存在误分类。

5. 核心代码详细讲解

1. 数据预处理和特征工程：

提取骨骼点数据：

./build/examples/openpose/openpose.bin --video examples_video.avi --write_json output/ --display 0 --render_pose 0

解释：该命令使用OpenPose从视频中提取骨骼点数据。--video参数指定输入视频，--write_json将骨骼数据保存为JSON格式，--render_pose 0关闭骨骼渲染以提高处理速度。每一帧的骨骼点信息将被存储，供后续模型训练使用。

时空图卷积网络（ST-GCN） ：

class ST_GCN(nn.Module):def init(self, in_channels, num_class, edge_importance_weighting):super().__init__()# 图卷积层
        self.graph_conv = GraphConvolutionLayer(in_channels, out_channels)# 时间卷积层
        self.temporal_conv = nn.Conv2d(out_channels, out_channels, kernel_size=(9, 1), padding=(4, 0))# 全连接层
        self.fc = nn.Linear(out_channels, num_class)

GraphConvolutionLayer：定义图卷积层，用于捕捉人体关节点之间的空间依赖关系。

nn.Conv2d：时间卷积层，用于提取同一关节点在不同时间帧的动态变化。

fc：全连接层，将卷积后的特征映射到最终的分类标签。

模型训练与评估：

训练循环：

for epoch in range(num_epochs):
    model.train()for data, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(data)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

解释：

model.train()：设置模型为训练模式。

optimizer.zero_grad()：清除之前计算的梯度。

outputs = model(data)：将数据输入模型，获取预测结果。

loss.backward()：反向传播计算梯度。

optimizer.step()：更新模型参数。

6. 模型优缺点评价

模型优点：

时空特征捕捉能力强：A042-ST-GCN模型结合了图卷积和时间卷积，能够同时捕捉动作的空间结构和时间动态，特别适合处理像花样滑冰这种复杂的动作序列。
骨架数据高效建模：通过人体关键点骨架数据，模型减少了对背景、摄像角度等干扰因素的依赖，提升了动作识别的准确性和鲁棒性。
模型轻量：ST-GCN模型结构相对简洁，包含较少的卷积层，计算资源需求低，适合实时动作识别任务。
良好的泛化能力：模型在不同类型的动作数据上表现出较好的泛化能力，适用于多样化的动作分类场景。

模型缺点：

对数据质量敏感：模型依赖于准确的骨架关键点提取，因此在视频质量差、光照变化大或关节点遮挡的情况下，识别效果可能大幅下降。
缺乏对细节动作的处理能力：虽然ST-GCN能够捕捉全局的空间和时间特征，但对于一些细微的动作差异，如花样滑冰中跳跃和旋转的细节，模型仍可能存在误分类的情况。
超参数调优复杂：该模型的超参数（如卷积核大小、层数等）对性能影响较大，调优过程可能耗时且不易把握。

可能的改进方向：