一、所要解决的问题
1.长距离关节依赖捕获不足
传统图卷积是局部操作,在空间维度上主要利用短距离关节依赖,难以直接建模对区分动作至关重要的远距离关节关系。例如,不同动作需要不同身体部位的协调,像 “行走” 需全身协调保持平衡,“挥手” 仅需手部动作,识别这些动作需要捕获不同范围关节间的依赖关系,但现有方法在这方面存在欠缺。
2.长距离时间信息利用有限
在时间维度上,以往工作大多使用固定核大小的时间卷积,长距离时间关系通过深度网络中堆叠局部时间图卷积间接建模,经过多次局部卷积操作后,来自远距离帧的有用特征被削弱,难以有效捕捉长距离时间信息。比如 “戴上眼镜” 和 “摘下眼镜” 在短时间内动作相似,需要算法捕捉长距离时间信息来减少歧义。
二、本文方法
1.多尺度空间图卷积模块(MS-GC)
受 Res2Net 启发,将输入特征沿通道维度拆分为s个片段,每个片段对应一个空间图卷积操作。相邻片段间采用残差连接,形成层次残差架构,使特征能与不同距离的邻居节点进行多次信息交换,扩大空间感受野,捕获局部与非局部关节间的依赖关系。
2.多尺度时间图卷积模块(MT-GC)
将 MS-GC 模块扩展到时间域,采用类似结构,用一组子时间图卷积替换局部时间图卷积,构建层次残差连接。不同子集的时间图卷积操作相同但输入不同,对时空特征进行一系列级联的时间图卷积操作,扩大时间感受野,捕获短距离和长距离时间关系。
3.多尺度时空图卷积网络(MST-GCN)
采用两种方式组合 MS-GC 和 MT-GC 模块。一是分别用 MS-GC 和 MT-GC 模块替换 ST-GCN 中的空间图卷积和时间图卷积单元;二是构建空间 - 时间残差图卷积(STR-GC)模块,在单个模块内串联子空间和时间图卷积,使空间和时间特征在每个子集中交替更新,扩大时空感受野。
三、方法详解
1.多尺度空间图形卷积(MS-GC)
1.输入特征处理
给定输入特征X,其形状为[C,T,V],其中C表示通道数,T表示帧数,V表示节点数(即人体骨骼中的关节数)。 将输入特征沿着通道维度拆分成s个片段,记为xi,其中i∈{1,2,···,s},每个片段的形状变为[C/s,T,V]。
2.子空间图卷积操作
每个片段xi都有一个对应的空间图卷积操作Gi,其实现方式是基于改进后的空间图卷积公式(4)。 第i个片段的输出计算方式如公式(6)。
3.特征融合与输出
经过上述步骤,得到s个具有不同感受野的片段输出。 将所有片段沿着通道维度进行拼接,得到拼接后的特征。 最后添加整个 MS - GC 模块的残差连接,即拼接后的特征与原始输入特征X相加,再经过激活函数σ得到最终的输出特征Y。
通过这样的工作流程,MS-GC 模块能够在不引入额外参数的情况下,有效地捕获局部和非局部关节之间的依赖关系,实现多尺度的空间特征表示,有助于提升基于骨骼的动作识别模型的性能。
2.多尺度时间图卷积(MT-GC)
1.输入特征处理
MT - GC 模块的结构与多尺度空间图卷积(MS - GC)模块类似,但不引入额外的残差连接。 输入时空特征形状为[C,T,V],其中C表示通道数,T表示帧数,V表示节点数,同样沿着通道维度将输入特征拆分成s个片段,记为xi,每个片段的形状变为[C/s,T,V]。
2.子时间图卷积操作
对于每个片段xi,应用一组子时间图卷积操作。这些子时间图卷积操作构建为层次残差式连接,即每个子集的时间图卷积操作相同,但输入不同。 具体来说,在每个子集中,时间图卷积操作类似于空间图卷积在时间维度上的扩展。通过定义的时间采样函数(如下图)确定参与卷积的相邻帧范围,其中参数Г控制时间尺度的聚合。时间邻接矩阵AT∈RT×T表示连续帧之间关节的轨迹,通过简单的基于时间序列的标记函数将其划分为Г部分,从而实现时间图卷积操作。 设子时间图卷积操作记为Ti,对于第i个片段,其输出yi计算方式与(6)相似。
3.特征融合与输出
当时空特征依次通过所有子时间图卷积操作后,对得到的个片段输出采用简单拼接策略进行融合。 最终输出的特征具有多尺度时间表示,能够有效捕获短距离和长距离时间关系,为后续动作识别任务提供更丰富的时间特征信息。
MT - GC 模块通过这种方式,解决了以往工作中长距离时间建模不足的问题,增强了模型对动作在时间维度上的理解和识别能力。但论文对于MT - GC的描述较为粗略,缺少一些图表与公式的展示。
3.多尺度时空图卷积网络(MST-GCN)
1.网络结构组成
MST - GCN 网络结构主要由 1 个批归一化(batch normalization)层、10 个构建块(building blocks)、全局平均池化(global average pooling)层、全连接层(fully connected layer)以及 softmax 层组成。 其中,构建块是 MST - GCN 的核心部分,其组合方式有两种,用于提取有效的时空特征。
2.构建块的两种组合方式
方式一
分别用多尺度空间图卷积(MS - GC)模块和多尺度时间图卷积(MT - GC)模块替换传统空间 - 时间图卷积网络(ST - GCN)中的空间图卷积和时间图卷积单元。 在这种方式下,空间特征和时间特征的提取分别由 MS - GC 和 MT - GC 模块独立完成,能够保持模型在提取多尺度时空特征时的连续性,使模型能够更有效地学习不同尺度下的空间和时间依赖关系。
方式二
构建空间 - 时间残差图卷积(STR - GC)模块,在单个模块内串联子空间和时间图卷积。 在 STR - GC 模块中,空间和时间特征会在每个子集中交替更新。具体计算方式为,设子空间图卷积为Gi,子时间图卷积为Ti,对于第i个片段,其输出yi计算如(8)。这种组合方式由于结合了空间和时间图卷积的联合作用,产生了一种类似 “组合爆炸” 的效果,使得空间和时间感受野都得到扩大。同时,该模块相对第一种方式更轻量,便于后续扩展空间 - 时间联合学习,但在时空特征提取的连续性上可能稍逊一筹。
四、消融实验
MS-GC 模块消融实验
为验证 MS-GC 模块的有效性,在 NTU RGB+D 数据集的跨主体(cross-subject)基准上,将 MS-GC 模块与自适应 ST-GCN 进行对比。实验通过调整 MS-GC 模块中拆分子集的数量来进行比较,同时构建轻质 MS-GCN(每个块通道数与 ST-GCN 相同但网络参数更少)与基线模型对比。
MT-GC 模块消融实验
在 NTU RGB+D 数据集跨主体基准上,用 MT-GC 模块替换 ST-GCN 中的 TGC 构建 MT-GCN,与自适应 ST-GCN 对比。同样评估不同值(拆分子集数量)下的有效性和效率。
根据前面消融实验结果,将 MS-GC 和 MT-GC 模块中的s都设为4,构建 MST-GCN。MST-GCN 分别用 MS-GC 和 MT-GC 模块替换 ST-GC 块中的 SGC 和 TGC,同时构建 STR-GC 模块(用 STR-GC 模块替换 ST-GC 块)进行对比。
五、特征可视化分析
为进一步验证模型性能,对 MST-GCN 最后一个块的输出特征图进行可视化。结果显示模型能聚焦动作最相关的部分,如 “穿鞋” 时关注左臂和左脚,“拍手” 和 “挥手” 时主要响应在手臂部分,“走路” 时能捕捉全身协调。这表明模型可提高鲁棒性,减少噪声节点干扰,且能捕获长距离依赖来识别动作。