图卷积相关论文解读 BlockGCN

二月的夕雀

已于 2024-05-30 17:13:00 修改

阅读量606

点赞数 9

文章标签：深度学习人工智能

于 2024-05-30 17:12:07 首次发布

本文链接：https://blog.csdn.net/qq_54407673/article/details/139299324

版权

七、BlockGCN

1、对GCNs的改进

GCNs主要存在的缺点：(1)该拓扑结构是基于物理连接进行初始化的，但这种重要的知识在训练过程中会衰减，从而限制了骨骼信息的保留。(2)单一静态拓扑难以捕获在复杂操作中出现的各种联合关系。因此，虽然GCNs的图建模比CNN或RNN更适合处理骨骼数据，但它们很难完全捕获人类拓扑中复杂的多尺度关系，这对于复杂的基于骨骼的动作识别至关重要。

因此作者的改进包括：1.通过新的拓扑编码方案来识别和恢复高级GCN中被忽视的骨骼拓扑结构。这包括使用图距离的静态编码，以保留骨骼的连通性；基于持久同源性的动态编码，来捕获特定动作的拓扑拓扑。 2.设计BlocgGC，一个高效且强大的图卷积块，通过其块对角权重矩阵，它减少了超过40%的参数，同时提高了建模能力。

2、GCN问题精讲

（1）首先是邻接矩阵A的构建：最初采用的方法是固定的拓扑结构（ST-GCN），最近采用的是可学习的邻接矩阵（AA-GCN），能够捕捉物理上连接和断开节点之间的关系。但是可学习的邻接矩阵存在 “ 灾难性遗忘 ” 问题。

图：可学习的邻接矩阵

（2）其次就是多关系建模：用单个邻接矩阵捕获多个语义关系具有挑战性。先前的研究已经提出了克服这一限制的策略，比如多邻接矩阵（比较常见）、注意力机制（AAGCN中采用了Transformer 的 Self-Attention 自注意力机制模块）。但这两种方法均存在一定缺陷，如复杂性高、参数量大等问题。

图：多邻接矩阵的多关系建模

3、拓扑编码

（1）动态拓扑编码（Dynamic Topological Encoding）：这种编码依赖于输入，因此是“动态的”。

<1> 给定一个输入姿态序列，以骨架关节为节点，以每个关节对之间的欧氏距离(Euclidean distance)为权重，由wij表示，组成一个加权动态图GD。这个动态图的大小可能是V*V*T，即包含空间和时间维度的信息。

<2> 然后根据动态图GD的图滤波（graph filtration），得到多个拓扑结构(K0 $\sim$ Km)，即单纯形复合体（simplicial complex）。

动态图GD的图滤波是一种用于拓扑学分析的方法，它通过逐渐增加图的复杂性来研究图的拓扑结构的变化。在滤波过程中，图GD会被分解成一系列子图，这些子图被称为抽象简单复合体（abstract simplicial complexes）。每个子图都是由图GD中的节点（关节点）和边（关节对之间的欧几里德距离）组成的。 Vietoris-Rips复形（VR复形）是一种用来从点集或网格数据中构建 simplicial complex（单纯形复合体）的方法。

滤波的过程是这样的：

初始时，只包含图GD中最基本的单元，例如单个关节点或者两关节点之间的边。
随着时间的推移，逐渐添加更多的边和节点，直到包含了整个图GD。

在这个过程中，每个子图都是前一子图的扩展，新的边和节点只有在它们的长度或权重小于等于当前的滤波值时才会被添加。这样，随着滤波值的增加，子图逐渐变得更加复杂，最终滤波值达到最大时，子图就变成了原始的图GD。

<3> 然后从（K0 $\sim$ Km）个单纯形复合体（simplicial complex）得到的（1 $\sim$ p）条形码（barcodes）

条形码（barcodes）是用来表示不同维度拓扑对象在滤波过程中出现和消失的信息的一种方法。在图的VR复形中，条形码通常表示为 birth-death 序列，其中 birth 表示该拓扑对象首次出现的时间点（在滤波过程中的某个阈值），death 表示该对象在滤波过程中消失的时间点，表示为(b, d)。

从这些单纯形复合体中，我们可以计算出持久同调组（persistent homology groups），并且将这些信息表示为birth-death条形码（birth-death barcodes）。一个单纯形复合体可能有多个持久拓扑特征，因此一个单纯形复合体可能得到多个条形码。

<4> 将条形码进行向量化和映射（Vectorization&Projection），外加激活函数 $\psi$ 。

条码码的向量化：将向量化应用于条码，这意味着每个条码（b，d）都被转换为某个向量空间中的向量。这种向量化捕捉了条码的信息并以数值形式表示，这可以输入到神经网络中。

映射：条码向量随后通过映射函数 f 投影到 GCN 隐藏层的特征空间中。这个映射函数是在训练过程中学习的，其目的是将条码向量转换为适合 GCN 层处理的格式

（2）静态拓扑编码（Static Topological Encoding）

骨头连接着人体的关节，在物理上限制了每个关节在一个动作中的运动。整合这种骨连接信息以准确识别该动作是至关重要的。作者提出了一种静态拓扑编码来描述骨架连接。

该方法对骨骼图GS上的两个关节之间的相对距离进行编码，使用不同的距离度量（这里使用的是最短路径距离（SPD））。

$P_{1}$ 和 $P_{|p|}$ 代表路径P上的第一个点和最后一个点。 $B_{ij}$ 代表权重参数，它从可训练的参数表 E = { $e_{index}$ } 中检索得到，并根据关节对之间的最短路径距离 $d_{i,j}$ 通过骨骼连接分配给每个关节对。

整个过程的目的是根据关节之间的最短路径距离来分配权重参数 Bij。通过这种方式，模型可以学习到关节之间的相对重要性或影响，从而更好地理解和模拟关节的运动或行为。

这样，在训练过程中，只优化了嵌入权值，而不是邻接矩阵，确保保留了由关节距离所代表的骨连通性信息。

二月的夕雀

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
图卷积相关论文解读 BlockGCN

在图的VR复形中，条形码通常表示为 birth-death 序列，其中 birth 表示该拓扑对象首次出现的时间点（在滤波过程中的某个阈值），death 表示该对象在滤波过程中消失的时间点，表示为(b, d)。（1）首先是邻接矩阵A的构建：最初采用的方法是固定的拓扑结构（ST-GCN），最近采用的是可学习的邻接矩阵（AA-GCN），能够捕捉物理上连接和断开节点之间的关系。该方法对骨骼图GS上的两个关节之间的相对距离进行编码，使用不同的距离度量（这里使用的是最短路径距离（SPD））。
复制链接

扫一扫