Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition

浅｀时光

已于 2025-04-15 10:42:22 修改

阅读量826

点赞数 23

文章标签：人工智能深度学习视觉检测计算机视觉

于 2025-04-15 10:36:28 首次发布

本文链接：https://blog.csdn.net/qq_51728598/article/details/147136638

版权

原文：SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition | Proceedings of the AAAI Conference on Artificial Intelligence

代码： GitHub - cong-wu/SCD-Net: [AAAI 2024] The Official implementation for 'SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition'.

标题：SCD-Net：基于自监督骨骼动作识别的时空线索解缠网络

目录：

摘要

对比学习在基于骨骼的动作识别中取得了显著成功。然而，现有大多数方法将骨骼序列编码为纠缠的时空表示，并将对比局限于同一层次的表征空间。为此，本文提出了一种新的对比学习框架——时空线索解缠网络（Spatiotemporal Clues Disentanglement Network, SCD-Net）。具体而言，我们将解耦模块与特征提取器结合，分别从空间和时间域中提取显式线索。在SCD-Net的训练过程中，通过构造全局锚点，我们促进锚点与提取线索之间的交互。此外，我们提出了一种具有结构约束的新型掩码策略以强化上下文关联，将掩码图像建模的最新进展融入所提出的SCD-Net中。我们在NTU-RGB+D（60&120）和PKUMMD（I&II）数据集上进行了广泛评估，覆盖动作识别、动作检索、迁移学习和半监督学习等多种下游任务。实验结果证明了我们方法的有效性，其性能显著优于现有最先进（SOTA）方法。代码和补充材料可在https://github.com/cong-wu/SCD-Net获取。

1. 介绍

基于骨骼的动作识别旨在通过骨骼序列识别人类动作，该领域近年来取得了显著进展。一方面，图卷积网络（GCN）（Yan, Xiong, and Lin 2018）等深度网络已被研究并成功应用于该任务。另一方面，NTURGB+D（Shahroudy et al 2016）等大规模数据集的提出，为该领域的进一步发展提供了实验基础。然而，与大多数视觉任务类似，训练高性能模型通常需要大量高质量的标注数据，这对数据收集和标注工作带来了巨大挑战。幸运的是，自监督学习通过利用数据内在关联而非依赖人工标注，成为应对这一挑战的有效方案。特别是近期研究（Dong et al 2023）表明，对比学习因其可解释性和迁移能力，已成为自监督基于骨骼动作识别的前沿方法。

然而，现有方法忽视了几个关键问题。首先，编码器负责将输入映射到可进行对比的潜在空间，尽管大多数先前方法（Zhang et al 2022a; Franco et al 2023）专注于通过常用的时空建模网络获取统一信息，但其设计导致信息完全纠缠，无法为后续对比度量提供清晰指示。已有零星尝试（Dong et al 2023）试图提取完全孤立的空间或时间信息，但反复验证表明，时空信息的完全分离对动作识别并非最佳（Kay et al 2017; Lin, Gan, and Han 2019）。更重要的是，大多数方法在优化过程中仅关注在同一层次表征空间构建对比对（Guo et al 2022），或试图强制信息流交互，却忽略了不同域之间的差异（Dong et al 2023）。此外，现有技术（Thoker et al 2021）常局限于尺度变换，导致未充分挖掘数据增强的潜力。为此，我们提出一种新型对比学习框架，聚焦于解缠时空线索，并利用数据增强中的掩码策略提供更具判别性的输入，从而促使模型学习更鲁棒的交互关系。

为了充分利用骨骼序列中存在的复杂特征，我们提出了一种双路径解耦编码器，用于从空间和时间域生成明确的表征。我们的编码器由两个主要子系统组成：一个特征提取器和一个解耦模块。特征提取器的作用是从骨骼序列中提取基本的时空特征，作为中间表征。由于缺乏对骨骼序列的整体把握，仅仅从某个特定视角进行建模很难全面了解这些特征。接下来，我们通过投影生成标记嵌入（token embeddings），并使用基于Transformer的模块对序列特征进行细化。解耦模块对于推导出基于关节和基于帧的解耦表征至关重要，这提高了所学习表征的可解释性。

对比学习的核心原理在于使编码后的查询（query）与对应的键（key）保持相似性，同时与备份队列中的其他键呈现差异性（He et al 2020）。在此，我们扩展了对比损失的应用，以衡量多时空粒度表征之间的判别性。我们策略性地将时空表征的全局视图作为锚点（anchor），并评估其与通过替代编码器获得的其他表征的相关性。进一步来说，我们将编码器输出的线索融合并投影到对比空间中，以创建全局表征。我们的目标是通过利用该锚点，搭建一座促进不同域间信息交互的桥梁。

此外，为促使模型学习更鲁棒的交互关系，我们提出了一种结构约束下的创新型基于掩码的数据增强方法。具体而言，在空间域中对随机选择区域的相邻区域进行掩码，在时间域中构建基于立方体的随机掩码。这种结构化掩码策略显著增加了训练数据的多样性，同时使模型能够隐式捕捉骨骼序列中的时空上下文关系。

我们通过大量实验验证了所提方法的有效性。如图1所示，结果表明我们的方法在所有下游任务中均超越了主流方法，展现出其在基于骨骼的动作理解中的卓越能力。

图1：所提方法与HiCoTransformer（Dong et al 2023）在多个评估指标下的对比。（彩色效果更佳）

2. 相关工作

2.1 基于骨架的动作识别

基于骨骼的动作识别已引起研究界的广泛关注（Ke et al 2017; Gupta et al 2021; Wu et al 2023）。在早期方法中（Du, Wang, and Wang 2015; Chen et al 2006），研究者通过传统特征提取技术设计定制化方案对骨骼进行分类。近年来，基于图卷积网络（GCN）的方法（Yan, Xiong, and Lin 2018; Li et al 2019; Liu et al 2020）在该领域展现出显著优势，其核心范式是首先将骨骼序列建模为时空图，继而采用信息聚合和更新技术进行处理。受Transformer模型（Dosovitskiy et al 2020; Liu et al 2022）卓越性能的启发，近期一些方法（Zhang et al 2021, 2022b）开始探索其强大的序列建模能力在骨骼相关任务中的应用。

2.2 对比学习

对比学习是自监督学习的典型解决方案。与生成式学习（Zhu et al 2020; Huang et al 2022）不同，对比学习不涉及对输入的显式生成或重建，而是专注于通过对比损失学习具有判别性的表征。大多数对比学习方法（Chen et al 2020; Grill et al 2020）遵循如下原则：在投影空间中拉近正样本对的距离，同时推远非相似样本对的距离。通过挖掘数据内部的固有属性，对比学习能够学习到更具泛化性和鲁棒性的表征，从而在下游任务中展现出卓越性能（Wang and Liu 2022）。

2.3 基于骨骼的动作识别对比学习

对比学习在基于骨骼的动作识别中也得到了成功应用。Thoker等人（Thoker et al 2021）提出了骨骼内和骨骼间对比损失，在多个下游任务中取得了良好效果。Dong等人（Dong et al 2023）利用编码器不同阶段的下采样操作获取多尺度特征，构建了分层对比学习框架。Franco等人（Franco et al 2023）提出了一种新方法，将编码后的特征投影到双曲空间（一种能够更高效建模复杂关联的非欧几里得空间）中。尽管取得了这些进展，大多数现有研究仍忽视了从骨骼序列中提取和解缠时空线索的关键步骤，更没有考虑不同域表征之间的交互。

对于对比学习而言，数据增强通过处理训练样本以获得具有一定差异的正样本输入对。Thoker等人（Thoker et al 2021）采用了多种时空增强技术（包括姿态增强、关节抖动和时间裁剪缩放），为查询编码器和键编码器生成不同的输入。尽管大多数方法遵循类似的尺度变换范式，Zhou等人（Zhou et al 2023）提出了一种掩码选定节点和帧的策略，将数据增强扩展到“破坏”数据结构的层面。然而，与图像数据不同，骨骼序列具有强物理关联性——这意味着即使某个节点或帧被损坏，也能通过相邻区域的信息轻易修复（Cheng et al 2020）。为此，我们结合结构约束，将基于点的掩码方法扩展为基于区域的掩码，旨在避免潜在的数据泄漏并提升SCD-Net的学习能力。

3. 提出的SCD-Net

在本节中，我们首先介绍SCD-Net的整体框架，随后在后续章节中详细介绍其各个组件。

3.1 总体框架

所提方法的整体流程由两个分支组成，如图2（b）所示。每个分支包含相同的组件，包括数据增强模块和编码器。对于任意输入数据，我们将编码器与动量编码器的输出进行关联，以形成对比对。

进一步详细说明，网络的输入定义为人体关键点序列，记为 $\chi$ $\in$ $\mathbb{R}^{C\times T\times V}$ 其中 T 为序列长度，C 为二维 / 三维空间中的物理坐标维度，V 为关键点数量。在 SCD-Net 中，我们首先通过数据增强为编码器生成增强视图。其次，对于每个编码器，我们执行特征提取和（空间 / 时间）解耦操作，从纠缠的信息中生成空间特征 $z_{s}$ $\in$ $\mathbb{R}^{C_{2}}$ 和时间特征 $z_{t}$ $\in$ $\mathbb{R}^{C_{2}}$ 。第三，将这些线索投影到同一语义空间以获得最终表征。

损失函数定义为这些表征交互的度量，其中参数 $\theta$ 和 $\xi$ 分别对应编码器和动量编码器的架构。在优化过程中，损失仅通过编码器反向传播，而动量编码器的参数通过动量更新策略进行更新。因此，最终的优化目标为：

其中，r 和 m 分别为学习率和衰减率。

图2：我们的模型受益于三项创新：用于分离时空信息解缠的双路径编码器；促进信息交互的定制化跨域对比损失；实现高效数据增强的结构约束掩码策略。

查询编码器（Query Encoder）

参数更新：通过梯度下降直接更新参数（公式 1 ），负责处理当前批次的输入数据，生成 “查询特征”（如 (q_s, q_t, q_g)）。

角色：作为 “学生模型”，通过反向传播学习当前数据的特征，快速适应新输入的变化。

动量编码器（Momentum Encoder）

参数更新：不直接进行梯度回传，而是通过动量策略缓慢更新参数（公式 1 中的 ξ=ξ⋅m+θ⋅(1−m) )，m 为动量系数，论文中设为 0.999）。

角色：作为 “教师模型”，生成 “键特征”（如 (k_s, k_t, k_g)），其参数是查询编码器参数的历史平滑版本，避免查询编码器快速更新导致的正负样本分布波动，提升对比学习的稳定性。

3.2 双路径解耦编码器

一般来说，从骨骼序列中提取的特征表现为描述动作的复杂时空关联。然而，我们认为这种范式并不适用于对比学习——由于信息高度纠缠，难以对后续的对比过程提供清晰指导。在SCD-Net中，我们主张采用双路径解耦编码器，从复杂的序列信息中解析出清晰且多样的判别性线索。这些线索为后续的对比量化提供了明确的指示。更重要的是，对不同域之间对比关系的可靠评估，有望为模型提供更强的判别能力。

为简洁起见，我们通常将编码器的增强输入记为 $\chi$ 。如现有研究所示，完全隔离信息流并非最优选择（Lin, Gan, and Han 2019; Wang et al 2021）。基于此，我们采用时空建模网络提取中间特征。受骨骼序列建模的优异性能启发（Yan, Xiong, and Lin 2018），我们使用 $l_{g}$ 层GCN，它由空间GCN（S-GCN）和时间GCN（T-GCN）组成，以获取统一表征。这一过程可视为相邻特征的聚合与更新。具体而言，对于任意（其中 t 和 i 分别为帧索引和关节索引），新生成的特征可表示为：

其中，B( $\chi _{ti}$ ) 表示对 $\chi _{ti}$ 进行图卷积操作的核函数， $Z\left ( \cdot \right )$ 表示归一化操作， $W\left ( \cdot \right )$ 是权重函数，而 $l\left ( \cdot \right )$ 则将相邻节点映射到对应的子集索引上。

给定中间时空表征 Y，接下来的步骤是解耦操作，包括投影和细化，如图3所示。具体来说，我们对 Y 进行维度变换，得到和。然后将这些变换后的表征投影到更高的语义空间，以获得相应的空间和时间嵌入。例如，空间嵌入操作定义如下：

其中 W 和 B 是可训练的权重和偏置，。

然而，当前的嵌入仍然是一种粗略的表征，因为当前特征在点或帧内缺乏明确的交互。虽然特征提取操作包含了显著的时空交互，但这些交互往往相互交织。因此，解决单个空间和时间嵌入的交互问题仍然至关重要。在这里，我们使用一个 $l_{t}$ 层的自注意力网络来构建自相关信息提取过程，以细化空间和时间表征，如图3所示。此方法中使用的Transformer架构有两个主要组件：自注意力模块和前馈模块。例如，我们按如下方式得到：

其中 F 代表特征投影，由全连接层实现，Concat表示拼接操作，LN 和 FFN 分别表示层归一化和前馈网络，h 表示头的数量。同样，通过类似的操作也可以得到。

图3：双路径解耦模块，它能为骨骼序列提供清晰的空间和时间表征。

输入与特征提取：

首先把经过增强后的骨架序列x(CxTxV)输入GCN中，经过多层 GCN（含空间 GCN 和时间 GCN）来提取出中间特征y(C1xTxV)，

空间GCN：分析同一时间点各关节的关系（比如走路时左腿和右腿如何交替）

时间GCN：分析同一关节在不同时间的变化（比如手从低到高的轨迹）

就像先快速浏览整个视频，抓住“身体联动”和“动作节奏”的初步印象

解耦操作：维度变换与投影

解耦部分是将混合的特征Y分别通过空间分支和时间分支分解

空间分支为例

1、维度变换：把数据重新排列

空间特征：把所有时间点的同一关节数据拼在一起（比如30个关节×64个时间点的数据）将混合特征y(C1xTxV)重塑为 Vx(C1xT)

每个关节（V 维度）的特征包含所有时间帧（T）和通道（C1）的信息，聚焦关节间的空间关系。

2、投影层：用全连接层把数据转换成更抽象的语义特征，比如把“手肘坐标”转化为“弯曲程度”，方便后续对比，得到空间嵌入

Transformer 精炼

空间细化：找出哪些关节的联动最重要（比如挥手时手腕比膝盖更重要）

时间细化：找出哪些时间点的变化最关键（比如挥手起始帧比中间帧更关键）

3.3 跨域对比损失

有了解耦后的空间和时间表征，如图2所示，我们首先通过以下方式获得最终表征：

其中， $F_{s}$ 、 $F_{t}$ 是相应的投影函数，它们可以由两个全连接层来定义，类似于公式（3）。正如我们之前所讨论的，空间域和时间域之间存在明显的差异，为此我们引入了一个与两者都兼容的全局视角 $q_{g}$ ，将其作为对比的中介。

其中 $F_{g}$ 是相应的投影函数。相应的键编码器的输出也可以通过类似的过程得到。

基于这些候选特征，我们定义了一个新的跨域损失。我们设计的核心在于锚定全局表征，并建立它与另一个编码器所获得的其他表征之间的关联。损失函数定义如下：

其中 $\lambda$ 是求和操作的混合权重。具体而言，对于任何给定的对比对 u 和 v ，评估 u 和 v 之间的相关性。目标是最小化来自查询编码器和键编码器的正样本对之间的距离，同时最大化与其他特征之间的距离。

为此，我们采用了基于 InfoNCE 的对比损失法（Oord、Li 和 Vinyals，2018 年），具体如下：

其中是指数相似度度量。我们用 M 表示之前提取特征的先进先出队列，该队列包含 $l_{m}$ 个负样本。

单个对比损失的计算

3.4 数据增强

通过施加结构约束，我们的方法在当前随机选择的关节或帧周围的局部区域内进行掩码操作，而不是仅依赖孤立的点或帧。通过这种方式，我们大幅消除了明确的局部上下文关联，并迫使编码器通过交互式对比学习来建模稳健的上下文关系。

结构引导的空间掩码: 考虑到骨骼的物理结构，当选择某个关节进行掩码操作时，我们会同时对其相邻区域内的点也进行掩码。我们用矩阵 P 来表示邻接关系。如果关节 i 和 j 是相连的，那么 $P_{ij}=1$ ，否则 $P_{ij}=0$ 。我们记 $D=P^{n}$ ，其中 n 是指数。矩阵 D 中的元素 $D_{ij}$ 表示从节点 i 走n 步到达节点 j 的路径数量。请注意，这里允许路径反向和循环。为了施加结构约束，当节点 i 被选中时，我们会对所有满足 $D_{ij}\neq 0$ 的节点 j 执行相同的数据增强操作。这种操作唯一不理想的地方是它可能会导致候选关节的数量不固定。为了避免这种情况，对于几个随机选择的节点，实际的数据增强仅应用于在矩阵 D 上表现出最高总体响应的固定数量 (k）个点。

基于立方体的时间掩码: 序列在时间上遵循线性关系。为了避免相邻帧之间的信息泄露（Tong等人，2022），我们构建了一个由选定片段及其相邻帧所定义的立方体。具体来说，我们首先将输入序列划分为 s 个长度相等的立方体。接下来，我们随机选择 r 个立方体作为掩码的候选对象。

我们将数据增强的候选对象记为 $\tau$ 。给定一个骨骼序列 X，增强后的视图可通过以下方式获得：

其中，并且如果 p = False，t 退化为恒等映射。

参数含义

$t_{i}$ ：第 i 步增强操作，包括：

常规增强：旋转、翻转、剪切（提升几何不变性）；

结构掩蔽：空间掩蔽（基于邻接矩阵）和时间掩蔽（立方体式）。

$p_{i}$ ：布尔参数， $p_{i}$ =True 时应用 $t_{i}$ ，否则为恒等变换（论文中每个操作有 50% 概率执行）。

$\mathcal{X}$ ：原始骨架序列， $\mathcal{X}^{a}$ ：增强后的序列。

流程解析

从原始序列 $\mathcal{X}$ 开始，依次应用 n 步增强操作（如先旋转，再空间掩蔽，再时间掩蔽）。
每个操作的是否执行由 $p_{i}$ 随机决定，增加增强的多样性（避免固定模式）

结构引导的空间掩蔽

随机选择关节：每次随机选取 k 个关节（论文中 k=8 ），根据 D 确定每个关节的邻域关节集合。

固定掩蔽数量：对每个选中关节，取 D 中响应最高的 k 个关节进行掩蔽（避免不同关节邻域大小差异导致掩蔽数量波动）。

掩蔽方式：将选中关节的坐标置为 0 或随机噪声，破坏局部空间结构。

立方体式时间掩蔽

划分立方体：将时间序列均匀划分为 s 个等长的 “立方体”（每个立方体包含 T/s 帧，论文中 s=16，假设输入序列长度 T=64，则每个立方体 4 帧）。

随机选择掩蔽块：随机选取 r 个立方体（论文中 r=6）进行掩蔽，覆盖连续的时间片段。

将选中立方体的所有帧置为 0 或随机噪声，破坏时间连续性，迫使模型通过非掩蔽帧的时间动态推断动作（如 “挥手” 的起始和结束帧需结合中间帧的运动轨迹）。

4. 实验

4.1 实验设置

数据集：我们在四个基准数据集上评估所提出的方法NTU-RGB+D (60&120) (Shahroudy et al.2016) and PKU-MMD (I&II) (Liu et al. 2017)

实现细节：对于输入数据，随机选取64帧用于训练和评估。我们对选定的序列执行数据增强操作，包括旋转、翻转和平移，以及本文提出的结构空间掩码和时间掩码操作。每项操作都有50%的执行概率。对于掩码操作，我们设置。对于编码器，我们参考了动量对比学习（MoCo）（何等人，2020年），构建了一个查询编码器以及相应的键编码器。这两个编码器的结构完全相同，如图3所示。对于特征提取器，我们借鉴了基于因果关系Transformer的图卷积网络（CTR-GCN）（陈等人，2021年）的结构作为基本操作。在网络优化方面，我们将队列 M 的长度设置为8192（对于PKU-MMD I设置为2048），MoCo的动量设置为0.999，Softmax温度设置为0.2， $\lambda$ 设置为1。更多详细信息见补充材料。

表1：所提出方法与动作识别主流方法的对比。粗体和下划线字体分别表示最高和次高结果。

4.2 与 SOTA 方法的比较

我们将 SCD-Net 与几种 SOTA 方法进行了比较，包括：(1) 基于编码器-解码器的方法： LongT GAN（Zheng 等 2018）、EnGAN-PoseRNN（Kundu 等2019）、P&C（Su 等 2020）、H-Transformer（Cheng 等2021）、SeBiReNet（Nie、Liu 和 Liu 2020）、Colorization（Yang et al 2021）、GL-Transformer（Kim et al 2022）；（2）基于混合学习的方法： ASSL（Si 等人，2020 年）、MS2L（Lin 等人，2020 年）、PCRP（Xu 等人，2021 年）、HITRS（Chen 等人，2022 年）；（3）基于对比学习的方法： CrosSCLR（Li 等，2021 年）、MCC（Su 等，2021 年2021）、AimCLR（Guo 等 2022）、ISC（Thoker 等2021）、HYSP（Franco 等 2023）、SkeAttnCLR（Hua 等 2023）、ActCLR（Lin、Zhang 和 Liu 2023）、HiCoTransformer（Dong 等 2023）。为了评估所提出的 SCD-Net 的优点，我们构建了多个下游任务，包括动作识别、动作检索、迁移学习和半监督学习。

动作识别 在这里，我们采用线性评估法，即固定预训练参数，只训练一个全连接层进行标签预测。表 1 列出了我们的方法与其他 SOTA 方法在几个流行数据集上的比较。结果表明，我们的方法在很大程度上优于所有现有方法。具体来说，在 NTU-60 x-sub 和 x-view 数据集上，我们的方法分别比之前的最佳方法提高了 5.5% 和 3.1%。在 NTU-120 上，我们的方法在 x-sub 和 x-set 上分别比之前的 SOTA 方法提高了 4.1% 和 5.6%。同样，SCD-Net 在 PKU-MMD I 和 PKU-MMD II 上分别达到了 91.9% 和 54.0%，远高于现有的 SOTA 结果。

动作检索 参照（Thoker 等人，2021 年），我们使用 KNeighbors 分类器（Cover 和 Hart，1967 年）进行动作检索，同时保持所有预训练参数不变。如表 2 所示，我们的 SCD-Net 在 NTU-60 的 x-sub 和 x-view 数据集上取得了令人满意的结果，准确率分别为 76.2% 和 86.8%。此外，在 NTU-120 的 x-sub 和 x-set 数据集上，我们的方法达到了 59.8% 和 65.7% 的准确率，大幅超越了所有现有的方法。

表 2：与行动检索主流方法的比较

迁移学习 对于迁移学习，按照（Dong et al 2023）的方法，我们将从一个领域学到的知识表征应用到另一个领域。具体来说，我们分别从 PKU-MMD I 和 NTU60 数据集加载预训练参数，并按照跨主体评估协议在 PKU-MMD II 数据集上对模型进行微调。表 3 中的结果表明，与目前的 SOTA 结果相比，我们的 SCD-Net 性能分别提高了 9.3% 和 11.2% 。

半监督学习 对于半监督学习，我们首先加载预先训练好的参数，然后在部分标记的训练集上对整个网络进行微调。在我们的实验中，我们从 NTU-60 数据集中随机选择了有限的标记样本进行进一步训练。表 4 中的结果显示，即使只有 1% 的标签可用，我们的方法在 x-sub 和 x-view 上的准确率也分别达到了 69.1% 和 66.8%。当有 10%的标签数据可用时，我们模型的性能进一步提高到 82.2% 和 85.8%。

4.3 消融实验

在这一部分，我们将验证所提议的 SCD-Net 的所有创新组件。所有实验结果都集中在对 NTU-60 数据集进行跨主体评估的动作识别任务上。

解耦编码器 我们的新型编码器的主要作用是提取关键的空间和时间表示。在表 5 中，当我们放弃特征提取器时，性能下降了很多。这表明，在当前任务中，提取完全孤立的信息流的方法是不可行的，这也符合我们的预期。值得注意的是，对两个分支使用非共享特征提取器比使用共享特征提取器的性能更好。与默认设置相比，当我们尝试放弃解耦模块时，由于输出受到时空纠缠的影响，准确率从 86.6% 降至 63.7%。将时空表示转换为特定时空域嵌入后，情况有所改善，准确率达到 84.0%。然而，它仍然不如使用细化模型的设计。这是因为细化模型提供了强大的序列建模能力，从而完善了当前的粗糙表征。

编码器参数 在表 6 中，我们研究了参数设置对模型性能的影响。总体而言，当我们使用 3 层 GCN 模块、64 作为输出通道数，并将变压器设置为 1 层、8 个磁头和 2048 个输出通道时，模型性能达到最佳。结果还表明，改变参数不会对模型的性能产生重大影响，这表明我们的方法具有稳定性。此外，我们还可以看到，网络规模并不一定会提高性能，这表明它并不依赖于网络规模。

损失函数 我们在表 7 中报告了不同损失函数配置的结果。我们可以看到，交互式损失函数比传统的实例损失函数性能更好，分别提高了 0.7% 和 1.6%。当联合使用所有三种粒度时，模型达到了最佳性能。这是因为空间和时间特征虽然描述的是相同的动作，但它们所传达的视频信息的性质之间存在很大差距。全局锚点提供了更全面的表征，弥补了这一差距，增强了判别能力。值得注意的是，联合使用这两种损失函数并不能进一步提高性能。这可能是由于整个信息流中的监督信息已经提供了足够的指导，因此没有必要建立进一步的指导机制

数据增强 在这里，我们研究了不同数据增强策略对模型性能的影响。结果见表 8。与默认设置相比，在没有任何增强的情况下，性能下降了 16% 以上。如果只使用传统的增强方法，包括旋转、翻转和剪切，模型的准确率可达 85.4%。在引入建议的结构引导时空增强后，模型的性能进一步提高了 1.2%。即使采用随机屏蔽，其性能仍低于默认设置。

值得注意的是，放弃空间或时间掩蔽都会导致性能下降。此外，如果只使用掩码，模型的性能也很一般，甚至比只使用传统的数据增强方法要差得多。这是因为我们的方法执行的是补偿，而不是替换。适当的掩码可以进一步提高输入数据的多样性，促进模型学习更稳健的时空关联。将所有这些技术结合起来，模型的性能将达到最佳。

解耦线索的可视化 如图4所示，我们使用t分布随机邻域嵌入算法（t-SNE）（Van der Maaten 和 Hinton，2008 年）来分析来自SCD-Net的解耦线索。我们选取了三组具有不同侧重点的数据进行比较。第一行表示空间线索，第二行表示时间线索。我们可以注意到，从图（a）和（d）来看，“投掷（throw）” 和 “鼓掌（clapping）” 在空间和时间上都具有很好的可分离性。从图（b）和（e）来看，“刷牙（brush teeth）” 与 “梳头（brush hair）” 在空间域上更易区分，因为它们最显著的差异在于作用对象。根据图（c）和（f），“放下（drop）” 和 “捡起（pick up）” 在时间域上更易区分，而在空间域上则表现出一定的纠缠，这是因为它们在时间顺序上是相反的。更重要的是，这些结果表明我们的编码器成功地对相应的特征进行了解耦，这使得不同线索之间的特异性能够与相同的样本相对应。

图 4：解耦线索的可视化。空间线索：（a）“扔 ”与 “拍手”；（b）“刷牙 ”与 “梳头”；（c）“丢 ”与 “捡”。时间线索：(d) “扔 ”与 “拍手”；(e) “刷牙 ”与 “梳头”；(f) “丢 ”与 “捡”；

5. 结论

在本文中，我们提出了一种用于无监督基于骨骼的动作识别的新型对比学习框架。其关键创新点在于时空线索提取机制的设计。在我们所提出的方法中，首先使用一个时空建模网络对动作序列进行编码，随后通过一个解耦模块来获取纯粹的空间和时间表征。我们提出了一种跨域损失函数，以此来引导对由不同表征所传达的判别性表征的学习。为所提出的无监督学习框架量身定制的一种新型数据增强方法，促进了系统的训练。该方法对动作数据的扰动施加了结构约束，以提高上下文建模的有效性，并增加数据的多样性。在广泛使用的基准数据集上获得的大量实验结果证明了所提出方法的优点，该方法在该领域定义了一个新的最先进（SOTA）水平。

论文提出的方法

1. 双路径解耦编码器（Dual-path Decoupling Encoder）

目标：分离时空特征，提供独立的时空线索。

实现：

特征提取：先用GCN提取基础时空特征（共享参数避免完全割裂）。

投影与细化：

空间分支：将特征转换为关节视角，用Transformer建模关节间关系（如“手腕”与“手肘”的关联）。

时间分支：将特征转换为帧视角，用Transformer建模时序变化（如“挥手”动作的连续性）。

输出：得到空间特征向量（zₛ）和时间特征向量（zₜ）。

关键优势：既保留时空交互，又突出各自特性，为后续对比提供清晰指导。

2. 跨域对比损失（Cross-domain Contrastive Loss）

问题：时空特征差异大，直接对比效果差（如空间特征关注位置，时间特征关注速度）。

解决方案：引入全局锚点（qg）作为中介。

全局锚点生成：融合时空特征（qg = Fg(zₛ, zₜ)），代表动作的全局视角。

对比策略：

让全局锚点与另一编码器的空间特征（kₛ）和时间特征（kₜ）相互吸引。

同时推开其他负样本（如不同动作的全局特征）。

损失公式：

效果：通过全局锚点桥接时空特征，提升对比的兼容性和判别性。

3. 结构约束的掩码增强（Structurally-constrained Masking）

传统方法的不足：随机掩盖关节或帧易被模型“猜出”（如掩盖“手腕”后，模型通过“手肘”推断）。

改进策略：

空间掩码：

掩盖某关节时，同时掩盖其物理相邻关节（如掩盖“手腕”时，连带掩盖“手肘”和“手指”）。

基于骨架的邻接矩阵（P）确定掩盖范围，确保破坏局部上下文。

时间掩码：

将视频分段为多个“时间立方体”，随机掩盖整个片段及其相邻区域（如掩盖第5-10帧时，连带掩盖第3-12帧）。

优势：迫使模型学习长距离依赖和鲁棒的时空关联，而非依赖局部线索。