MST-GCN论文浅析_mstgcn模型-CSDN博客

本文链接：https://blog.csdn.net/jrlong/article/details/146231056

一、所要解决的问题

1.长距离关节依赖捕获不足

传统图卷积是局部操作，在空间维度上主要利用短距离关节依赖，难以直接建模对区分动作至关重要的远距离关节关系。例如，不同动作需要不同身体部位的协调，像 “行走” 需全身协调保持平衡，“挥手” 仅需手部动作，识别这些动作需要捕获不同范围关节间的依赖关系，但现有方法在这方面存在欠缺。

2.长距离时间信息利用有限

在时间维度上，以往工作大多使用固定核大小的时间卷积，长距离时间关系通过深度网络中堆叠局部时间图卷积间接建模，经过多次局部卷积操作后，来自远距离帧的有用特征被削弱，难以有效捕捉长距离时间信息。比如 “戴上眼镜” 和 “摘下眼镜” 在短时间内动作相似，需要算法捕捉长距离时间信息来减少歧义。

二、本文方法

1.多尺度空间图卷积模块(MS-GC)

受 Res2Net 启发，将输入特征沿通道维度拆分为s个片段，每个片段对应一个空间图卷积操作。相邻片段间采用残差连接，形成层次残差架构，使特征能与不同距离的邻居节点进行多次信息交换，扩大空间感受野，捕获局部与非局部关节间的依赖关系。

2.多尺度时间图卷积模块(MT-GC)

将 MS-GC 模块扩展到时间域，采用类似结构，用一组子时间图卷积替换局部时间图卷积，构建层次残差连接。不同子集的时间图卷积操作相同但输入不同，对时空特征进行一系列级联的时间图卷积操作，扩大时间感受野，捕获短距离和长距离时间关系。

3.多尺度时空图卷积网络(MST-GCN)

采用两种方式组合 MS-GC 和 MT-GC 模块。一是分别用 MS-GC 和 MT-GC 模块替换 ST-GCN 中的空间图卷积和时间图卷积单元；二是构建空间 - 时间残差图卷积（STR-GC）模块，在单个模块内串联子空间和时间图卷积，使空间和时间特征在每个子集中交替更新，扩大时空感受野。

三、方法详解

1.多尺度空间图形卷积(MS-GC)

1.输入特征处理

给定输入特征X，其形状为[C,T,V]，其中C表示通道数，T表示帧数，V表示节点数（即人体骨骼中的关节数）。将输入特征沿着通道维度拆分成s个片段，记为xi，其中i∈{1,2,···,s}，每个片段的形状变为[C/s,T,V]。

2.子空间图卷积操作

每个片段xi都有一个对应的空间图卷积操作Gi，其实现方式是基于改进后的空间图卷积公式(4)。第i个片段的输出计算方式如公式(6)。

3.特征融合与输出

经过上述步骤，得到s个具有不同感受野的片段输出。将所有片段沿着通道维度进行拼接，得到拼接后的特征。最后添加整个 MS - GC 模块的残差连接，即拼接后的特征与原始输入特征X相加，再经过激活函数σ得到最终的输出特征Y。

通过这样的工作流程，MS-GC 模块能够在不引入额外参数的情况下，有效地捕获局部和非局部关节之间的依赖关系，实现多尺度的空间特征表示，有助于提升基于骨骼的动作识别模型的性能。

2.多尺度时间图卷积(MT-GC)

1.输入特征处理

MT - GC 模块的结构与多尺度空间图卷积(MS - GC)模块类似，但不引入额外的残差连接。输入时空特征形状为[C,T,V]，其中C表示通道数，T表示帧数，V表示节点数，同样沿着通道维度将输入特征拆分成s个片段，记为xi，每个片段的形状变为[C/s,T,V]。

2.子时间图卷积操作

对于每个片段xi，应用一组子时间图卷积操作。这些子时间图卷积操作构建为层次残差式连接，即每个子集的时间图卷积操作相同，但输入不同。具体来说，在每个子集中，时间图卷积操作类似于空间图卷积在时间维度上的扩展。通过定义的时间采样函数（如下图）确定参与卷积的相邻帧范围，其中参数Г控制时间尺度的聚合。时间邻接矩阵AT∈RT×T表示连续帧之间关节的轨迹，通过简单的基于时间序列的标记函数将其划分为Г部分，从而实现时间图卷积操作。设子时间图卷积操作记为Ti，对于第i个片段，其输出yi计算方式与(6)相似。

3.特征融合与输出

当时空特征依次通过所有子时间图卷积操作后，对得到的个片段输出采用简单拼接策略进行融合。最终输出的特征具有多尺度时间表示，能够有效捕获短距离和长距离时间关系，为后续动作识别任务提供更丰富的时间特征信息。

MT - GC 模块通过这种方式，解决了以往工作中长距离时间建模不足的问题，增强了模型对动作在时间维度上的理解和识别能力。但论文对于MT - GC的描述较为粗略，缺少一些图表与公式的展示。

3.多尺度时空图卷积网络(MST-GCN)

1.网络结构组成

MST - GCN 网络结构主要由 1 个批归一化（batch normalization）层、10 个构建块（building blocks）、全局平均池化（global average pooling）层、全连接层（fully connected layer）以及 softmax 层组成。其中，构建块是 MST - GCN 的核心部分，其组合方式有两种，用于提取有效的时空特征。

2.构建块的两种组合方式

方式一

分别用多尺度空间图卷积（MS - GC）模块和多尺度时间图卷积（MT - GC）模块替换传统空间 - 时间图卷积网络（ST - GCN）中的空间图卷积和时间图卷积单元。在这种方式下，空间特征和时间特征的提取分别由 MS - GC 和 MT - GC 模块独立完成，能够保持模型在提取多尺度时空特征时的连续性，使模型能够更有效地学习不同尺度下的空间和时间依赖关系。

方式二

构建空间 - 时间残差图卷积（STR - GC）模块，在单个模块内串联子空间和时间图卷积。在 STR - GC 模块中，空间和时间特征会在每个子集中交替更新。具体计算方式为，设子空间图卷积为Gi，子时间图卷积为Ti，对于第i个片段，其输出yi计算如(8)。这种组合方式由于结合了空间和时间图卷积的联合作用，产生了一种类似 “组合爆炸” 的效果，使得空间和时间感受野都得到扩大。同时，该模块相对第一种方式更轻量，便于后续扩展空间 - 时间联合学习，但在时空特征提取的连续性上可能稍逊一筹。

四、消融实验

MS-GC 模块消融实验

为验证 MS-GC 模块的有效性，在 NTU RGB+D 数据集的跨主体（cross-subject）基准上，将 MS-GC 模块与自适应 ST-GCN 进行对比。实验通过调整 MS-GC 模块中拆分子集的数量来进行比较，同时构建轻质 MS-GCN（每个块通道数与 ST-GCN 相同但网络参数更少）与基线模型对比。