【阅读文献笔记】TranSkeleton:基于骨骼动作识别的分层时空转换器

梨V_v

于 2024-11-08 15:06:48 发布

阅读量1.1k

点赞数 19

分类专栏：文献文章标签：笔记

本文链接：https://blog.csdn.net/qq_46460379/article/details/143626934

版权

文献专栏收录该内容

61 篇文章

订阅专栏

<“TranSkeleton:基于骨骼动作识别的分层时空转换器”>

摘要

“在本文中，我们提出了 TranSkeleton，这是一个功能强大的 Transformer 框架，它整齐地统一了骨骼序列的空间和时间建模。

对于时间建模，我们提出了一种新颖的分区聚合时态 Transformer 。它使用分层时间分区和聚合，可以有效地捕获远程依赖关系和微妙的时间结构。设计了一种差异感知聚合方法，以减少时间聚合过程中的信息丢失。

对于空间建模，我们提出了一种拓扑感知的空间变压器，利用人体拓扑的先验信息来促进空间相关建模。在两个具有挑战性的基准数据集上进行的大量实验表明， TranSkeleton 的性能明显优于目前的技术水平。”

📊 研究背景

“骨骼序列的固有信息可以分解为两个正交的维度，即

每一帧的空间骨骼姿态

每个关节的时间运动轨迹。

这两个维度对于动作识别都很重要”

“早期的深度学习方法一般是将人体骨骼按三维关节坐标序列排列或变换成伪图像，然后使用 RNN (Recurrent Neural Network, RNN)或卷积神经网络 (Convolutional Neural Network, CNN)进行特征提取和分类。这些基于 RNN 或 cnn 的方法虽然取得了很大的进步，但忽略了捕捉关节之间固有的空间相关性。”

“受图学习的启发，研究人员发现，人类骨骼可以被视为一个图，关节作为节点，骨骼作为边缘。因此，最近图卷积网络(Graph Convolutional Network, GCN)被广泛应用于该任务，并取得了较传统方法显著的性能提升。然而，这些方法一般会整合图卷积的多个分支来提取更丰富的空间信息，造成巨大的计算成本。”

“另一方面，他们专注于改进 GCNs 以获得更好的空间建模。至于时间建模，它们中的大多数都是简单地堆叠多个时间卷积层来提取运动特征，因此有两个不可忽视的缺点。1)以这种方式增加的时间感受野是相当有限的，导致实际上是短距离的时间建模。2)当到达更深的层次时，详细的运动信息可能已经大量消失，阻碍了远距离输入帧之间的交互。因此，对于他们来说，要完全掌握时间运动信息，尤其是长时间的时间依赖关系，是相当棘手的。”

“(TCN)以滑动窗口的方式进行局部建模，具有相对有限的时间接受野。

中间:Vanilla Transformer (V-Trans) 在整个模型中执行全局建模，没有时间聚合。

右:我们提出的分区聚合时态 Transformer (PAT-Trans)对同一层次结构内的每个长段并行执行时态建模，并通过差异感知时态聚合逐渐将段数量减少到一个。因此，它可以有效地捕获远程依赖关系和微妙的时间结构，并大大减少了 V-Trans 的冗余。”

“1)V-Trans 在整个模型中保持序列长度，这导致了巨大的冗余，因为输入骨架序列通常很长 (例如 300 帧)。

2)缺乏局部建模使得 V-Trans 难以捕捉输入序列的细微时间结构，特别是在有限尺度骨架数据集上训练时。”

研究方法

“首先提出了一种新的分区聚合时间 Transformer (PAT-Trans，如图 1 所示)，该框架使用分层时间划分和差异感知时间聚合。

我们设计了一个拓扑感知的空间变压器，它包含了所提出的物理连接约束，以促进空间建模。具体来说，在每个层次结构中，我们首先沿着时间维度将输入序列划分为几个长段，并使用堆叠的 Transformer 单元对每个段执行基于注意力的时间建模。然后，我们将这些片段连接起来，并减少序列。通过时间聚合，长度减半。我们以分层的方式执行这样的分区-建模-聚合过程，并逐渐将段的数量减少到一个。

通过这种方式，我们实现了有效的局部到全局的时间建模。此外，我们提出了一种差异感知的时间聚合(DATA)方法。通过考虑帧间差异，大大降低了多次时间聚合带来的信息损失。

与 V-Trans 相比，本文提出的 PAT-Trans 减少了大量冗余，并更好地掌握了输入序列的细微时间结构。在空间建模方面，我们还采用 Transformer 捕捉关节之间的空间相关性，并设计了物理连接约束(PCC)，将人体拓扑的先验信息整齐地嵌入到 Transformer 中。注意，空间和时间建模共享 Transformer 的多头自关注(MSA)作为其核心计算机制。因此，通过在每个 Transformer 单元中结合空间 MSA 和时间 MSA ，我们可以很容易地将所提出的拓扑感知空间 Transformer 和分区聚合时间 Transformer 集成到一个统一的时空建模框架中。

与流行的 TCN-GCN 范例相比，我们的 TranSkeleton 更有效地捕获了远程时间依赖性，并避免了成本昂贵的多分支 GCN 集成。我们对两个具有挑战性的骨架数据集进行了广泛的实验和分析，即;NTU RGB+D 和 NTU RGB+D 120。实验结果验证了我们方法的有效性和高效性”

“拟建的 L 级 TranSkeleton 图解。在每个阶段，我们首先沿着时间维度将输入特征划分为 Si 段，然后将它们馈送到 N 个堆叠的时空 Transformer 单元中，用于空间和时间交替建模。之后，我们将这些片段连接成一个序列，并应用所提出的感知差异的时间聚合方法(第 III-B 节)将时间维减少一半。然后将输出馈送到下一阶段。我们以分层的方式执行时间分区和聚合，这样段的数量就会逐渐减少到一个。最终的分类分数是通过全局平均池化，然后是全连接(FC)层来获得的”

相关工作

“A.基于骨骼的动作识别”

ST-GCN首先将图卷积应用于空间关联建模，将时间卷积应用于运动特征提取。此后，基于 TCN-GCN 的方法取得了显著的性能提升。

MS-G3D和 sticn在 GCNs 中引入了多尺度拓扑，以探索远距离关节之间的相关性。

DC-GCN通过在不同的特征通道组中使用不同的学习到的拓扑来提升图的建模能力。这些方法都使用学习到的相邻矩阵来建模人体拓扑，因此在推理时缺乏对不同输入样本的适应性。

2s-AGCN和 SGN引入了自注意机制根据关节的特征动态建模关节之间的相关性。

tr - gc 提出了一种面向通道的拓扑细化图卷积，用于动态拓扑和多通道特征建模。

在半监督场景中， X-CAR提出了一种对比增强和表示学习框架，以获得旋转-剪切-尺度不变特征。然而，大多数现有方法使用多分支图卷积来提取更丰富的空间信息，导致参数和计算成本急剧增加。

相比之下，我们通过采用多头自关注进行空间建模，避免了这种不必要的复杂性增加。另一方面，现有的方法主要集中在改进 GCNs 以实现更好的空间建模。对于时间建模，大多数方法只是简单地叠加多个时间卷积层来提取运动特征。

为了扩大颞感受野， MS-G3D采用不同扩张率的平行颞卷积。 MST-GCN设计了用于多尺度时间建模的分层残差架构。 DualHeadNet提出了一个由两个交错分支组成的双头图网络，以两种时空分辨率提取特征。SEFN提出了一种对称增强融合网络，融合多层次时空特征。然而，由于增加时间卷积的核大小会导致参数和计算成本的急剧增加，基于 tcn 的方法通常具有较小的卷积核大小(例如 3)，这使得它们难以实现全局时间接受场并有效捕获远程依赖关系。最近，将 vanilla Transformer 引入到 TCN-GCN 框架中，用于全局建模。”

“文献[42]直接采用全局 Transformer 进行时序建模。然而，正如第一节所讨论的，由于 vanilla Transformer 的问题，即。巨大的冗余和缺乏局部建模，它们没有达到令人满意的性能。

“B. Vision Transformer Transformer使用多头自注意进行序列建模，一直是自然语言处理中的主流方法。

与传统的基于 cnn 的方法相比，视觉 Transformer 模型通常需要更多的训练数据才能达到有竞争力的性能。当将 Transformer 应用于基于骨骼的动作识别时，这个问题变得更加棘手，因为到目前为止，与图像和视频数据集相比，骨骼数据集相对较小。

为了解决这个问题，我们提出了一个分层的 Transformer 架构，它在时间维度上以局部到全局的方式工作。将局部建模引入 Transformer 不仅有助于在有限尺度数据集上进行训练，而且还增强了模型捕捉输入序列细微时间结构的能力。

我们提出的局部到全局时间建模方法 (PAT-Trans) 之前很少被研究，因为基于 tcn 的局部建模在基于骨架的动作识别领域占主导地位，而视频变形金刚由于其输入片段更短(例如 8 帧)，通常执行全局建模。

输入序列首先沿时间维度均匀划分为若干段。

然后，设计时空转换器单元对每个片段进行建模。它由两个多头自注意模块组成，分别用于空间和时间建模，以及一个 MLP 模块用于特征转换。继最初的 Transformer之后，我们还在每个内部模块之前应用 LayerNorm，并使用几个残差连接来方便训练。

最后，进行时间聚合，降低时间数，合并相邻段。由于时间分割和聚合是以分层方式进行的，因此段的数量逐渐减少到一个。因此，整个框架在时间维度上就像一个局部到全局的架构。在多阶段分区-建模-聚合过程之后，我们应用全局平均池化，然后是线性层来预测动作标签。

注意，为了对位置信息进行编码，我们添加了可训练的空间位置嵌入 ESP在每个阶段的联合嵌入和时间位置嵌入 ET P 之后。与 TCN-GCN 范例不同，我们的 TranSkeleton 在一个纯 Transformer 框架中统一了空间和时间建模。它实现了关节之间的充分交互和沿运动轨迹的深度相关信息流，从而以学习输入骨架序列的判别时空表征。”

“B.分区聚合时间变压器

我们提出了一个分区聚合时间转换器(PAT-Trans)。它与分层时间分区和聚合一起工作，以捕获局部到全局的时间依赖性。具体来说，给定一个输入特征 X∈RT ×J×C ，我们对每个关节 X 执行时间建模 j ∈RT ×C ，其中 T、J、 C 分别为序列长度、关节数和特征维数。我们首先对输入特征 X 进行统一划分 j分成 S 段(X 1j, X 2j ,......， X Sj)沿时间维。

然后将它们输入共享时间多头自我注意(TMSA)模块。T-MSA 应用点积注意以动态方式对输入序列元素之间的相关性进行建模。已知第 k 段 X kj∈R TS ×C 的特征，T-MSA 首先采用线性映射函数 WQ WK WV ∈RC×C 生成相应的查询矩阵、键矩阵和值矩阵，即， q, k, v∈r s t×c。

“在点积注意之前，Q、K 和 V 中的每一个都沿着通道维度均匀地分成 h 组(即 h 个头部)。每个头对应于原始表示空间的 C 维的一个子空间，其中 Cº= Ch。然后在每个子空间中，我们计算相应查询矩阵 Q 的矩阵乘法 i 和键矩阵 Ki 。归一化后，我们得到一个注意图，并用它来指导值矩阵 V 的元素之间的交互 i 。上述点积注意并行应用于这些头部。然后将结果串联并馈送到一个线性层 W∈R 中 C×C ，从而融合不同头部的特征。之后，我们将 S 段的输出拼接成一个完整的序列 eX j∈RT ×C，并通过时间聚合将序列长度减少一半。一个阶段的整个时间建模过程可以表述为其中||为连接操作，TA 为时间聚合。

我们以分层的方式执行这样的分区-建模-聚合过程，并逐渐将段的数量减少到一个。在这个过程中，时间接受野迅速增加，并很快覆盖整个序列。

通过这种方式，我们实现了有效的局部到全局时间建模。注意，在这个过程中，段数 S 是一个重要的超参数。

1)它减少了序列长度，避免了高层特征复杂性的不必要增加。

2)它有效地扩大了时间接受野，促进了远距离帧之间的交互。

例如，如果两个连续的阶段具有相同的片段长度，那么在它们之间的时间聚合之后，等效的颞感受野将会翻倍。一般来说，平均池化(average pooling) 和最大池化(max pooling)是两种常用的降维操作。然而，平均池化会导致高频信息的大量损失，因为它会平滑运动轨迹。最大池化保留了每个通道的最大响应，并丢弃了较小的响应，从而也导致隐藏信息的丢失。为了减少聚合过程中的信息丢失，我们提出了一种简单而有效的差分感知时间聚合(DATA)方法。

如图 2 右下部分所示，对于特征向量 eX∈RTi ×J×C，我们首先使用最大池化或平均池化将时间维数减半，并计算奇帧之间的差 ex 奇数帧和偶数帧eXeven。然后我们将两个结果连接起来在通道维度上，并通过一个线性投影 W 将通道数量减少到 Ce∈R2×C。整个 DATA 方法可以表述为其中|| 为连接操作。通过融合帧间差异和聚类特征， DATA 在时间聚合过程中保留了更多的判别信息，从而大大增强了模型的时间建模能力。

3)与 TCN 和 V-Trans 的比较:来自输入元素的前向信号在相遇之前必须穿越多远，是影响模型捕获远程依赖关系能力的关键因素。任何一对输入元素之间的这些路径越短，就越容易掌握远程依赖关系[44]。因此，与 TCN 相比，本文提出的 PAT-Trans 具有两个关键优势:

1)由于我们的方法的片段长度(例如 16)远远大于 TCN 的核大小，因此它的接受域可以很快覆盖几个层次内的整个序列。相比之下，TCN 需要很多层才能达到同样的目标，导致模型复杂性和计算成本的增加令人难以接受。

2)即使与 TCN 具有相同的感受野，我们的方法也具有更高的信息交互效率。

“C.拓扑感知空间变压器”

图 3 所示。物理连接约束示意图。左:一个简化的人体骨架。右:两个注意头部中对应的参数化相邻矩阵，其中只有与实际物理连接对应的元素具有非零值。

这是因为与骨架序列不同，骨架内的关节有明确的顺序，例如，第 1 为“头部”，第 5 为“左肩”。同时，关节的数量远小于序列的长度。具体来说，给定一个输入骨架序列，我们在每一帧内单独执行空间建模。

1)物理连接约束:在基于骨骼的动作识别中，除了关节坐标之外，骨向量(bone vector)是另一种常用的模式，它表示骨骼的长度和方向。然而，在这种骨骼模态中，绝对位置和人体拓扑信息都完全丢失了，这阻碍了纯粹的基于注意力的空间建模。

为了解决这个问题，我们设计了一个物理连接约束 (PCC)来形成一个拓扑感知的空间变压器。具体来说，除了动态生成的注意矩阵外，我们在每个注意头中定义了一个参数化的相邻矩阵，并将所有元素限制为零，除了那些对应于实际物理连接的元素。

例如，如图 3 所示，在简化的人体骨骼中，第 7 块骨头连接到第 6 块和第 8 块骨头。因此，参数化相邻矩阵中的第 7 行/列只包含 3 个非零值。将原来的多头自注意与物理连接约束相结合，Eq.(2)变成其中 I∈{1,2，...， h}，⊙表示逐元素乘法。一个i 是第 i 个注意头中的参数化邻接矩阵。M PCC 是一个 0 - 1 矩阵，用作物理连接约束。此外，添加一个不带任何约束的参数化相邻矩阵也是一种选择。所设计的 PCC 与 2s-AGCN[6]在两个方面有很大的不同:

1)我们不像 2s-AGCN 那样执行手动分区，将物理连接的邻域划分为三个子集。

2) 2s-AGCN 需要多个 GCN 分支对不同的子集进行费力的特征转换。相比之下，我们的 PCC 通过约束关节间的信息流，巧妙地将人体拓扑的先验信息嵌入到 Transformer 中。”

结果

“A数据集

1) NTU RGB+D: NTU RGB+D[49]是基于骨骼的动作识别中使用最广泛的大规模数据集，包含从日常动作到医疗状况的60 类56880 个样本。这些动作样本由 40 个不同的受试者执行，并由微软 Kinect v2 摄像头同时从三个不同的视角进行捕捉。每个样本包含一个骨架序列，每帧有 25 个身体关节的 3D 坐标。数据集的作者推荐了两种评估方案:

(1)跨主题(X-Sub):对来自 20 个主题的样本进行训练，并对来自其他 20 个主题的样本进行测试。

(2)交叉视角(X-View):对摄像机 2 和 3 捕获的样本进行训练，并对摄像机 1 捕获的样本进行测试。

2) NTU RGB+D 120: NTU RGB+D 120[50]是目前基于骨架的动作识别的最大数据集。它通过增加 60 个额外类的 57600 个样本来扩展 NTU RGB+D。因此，它总共包含 120 个类的 114480 个样本，由 106 个不同的受试者执行。有 32 个不同的设置，每个设置表示一个特定的位置和背景。作者推荐了两种评估方案:

(1)交叉学科(X-Sub 120):对 53 个学科的样本进行训练，对另外 53 个学科的样本进行测试。

(2)交叉设置(X-Set 120):对设置 id 为偶数的样本进行训练，对设置 id 为奇数的样本进行测试。”

“B.实现细节

我们使用 Pytorch 实现了所提出的 TranSkeleton 模型。使用 4 块 NVIDIA RTX 2080Ti gpu 进行训练和测试。

整个模型由三个阶段组成，每个阶段包含两个基本的 Transformer 单元。我们将这三个阶段的特征维度分别设置为 64、128 和 256。

基本单元中的每个 MSA 模块都有四个头。MLP 模块的扩展比设置为 2。我们采用[51]中的采样策略，并通过插值将每个输入序列的大小调整为 64 帧。

我们采用 Adam[52]优化器和交叉熵损失来训练 70 个 epoch，权重衰减为 0.0001。初始学习率设置为 0.001，并在 epoch 50 和 60 时以 0.1 的系数衰减。

C.消融研究

为了评估所提出的 TranSkeleton 模型的各个组成部分的贡献，我们在 NTU RGB+D 120 数据集的跨学科基准上进行了广泛的消融实验。

“1)时间建模方法:” “2)段数” “3)帧数”“4)位置嵌入:” “5)时间聚合” “6)物理连接约束” “7)模型复杂性:”

“d 可视化”

“1)空间注意”

“空间注意图上的“喝水”(左上)，“穿上一件 “鞋子”(右上)、“挥手”(左下)和“跳跃”(右下)动作的空间注意图。蓝色表示数值较大。”

“刷头发”、“站起来”、“鼓掌”动作的空间注意力可视化。红线表示所有关节中注意力得分最高的。”

“2)时间注意”

“刷头发”、“站起来”和“从包里拿出物体”动作的时间注意强度可视化。注意，为了清晰起见，标记的帧 (左部分)是用它们对应的图像 ( 右部分)而不是骨架来可视化的。”

讨论

结论

“在这项工作中，我们提出了 TranSkeleton，这是一个简洁而强大的 Transformer 框架，它统一了基于骨骼的动作识别的空间和时间建模。对于时间建模，我们提出了一种新的分区聚合时态 Transformer，它可以使用分层分区和聚合。它有效地捕获了远程依赖关系和微妙的时间结构，并被证明比 TCN 和 vanilla Transformer 更好。还设计了一种差异感知聚合方法，以减少由时间聚合引起的信息损失。此外，为了有效的空间建模，我们设计了一个物理连接约束来形成一个拓扑感知的空间变压器。实验结果和对两个具有挑战性的骨骼数据集的综合分析表明，所提出的 TranSkeleton 明显优于最先进的同类产品。”

创新点

局限性

Questions:

一.研究背景

差异感知的时态聚合？

输入时间序列 (Ti)：输入的时间序列被分割为若干个时间片段。
Pooling：进行池化操作，将输入时间片段的信息聚合，降低时间维度的数目。池化操作能够提取出时间序列中的主要特征，同时减少数据量。
Split：将时间序列分为奇数和偶数两个部分。这一操作可以将时间序列拆分成两个并行处理的子序列。
Concatenation & Subtraction：对分割后的奇数和偶数子序列进行拼接（concatenation）和相减（subtraction）操作。拼接操作将奇数和偶数序列合并在一起，而相减操作可以突出两个序列之间的差异。
Linear Layer：经过拼接和相减操作后，通过一个线性层进行特征变换和降维，最终输出的时间维度数目是原来的二分之一 (Ti/2)。