提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言、
双流自适应图卷积网络( 2s-AGCN )学习笔记
一、stgcn的不足
( 1 ) ST - GCN中使用的骨架图是启发式预定义的,仅代表人体的物理结构。因此,它不能保证在行为识别任务中是最优的。例如,两只手之间的关系对于识别"拍"和"读"等类具有重要意义。然而,ST - GCN很难捕获两只手之间的依赖关系,因为它们在预定义的基于人体的图中彼此距离较远。
( 2 )GCNs的结构具有层次性,不同的层包含多层次的语义信息。然而,图的拓扑结构在ST - GCN中的应用被固定在所有层中,缺乏灵活性和建模所有层中包含的多层次语义信息的能力
(3)对于不同动作类别的所有样本,一个固定的图结构可能不是最优的。对于"擦脸"、“摸头"这样的课,手和头的联系应该更强,但对于其他一些课,如"跳起来”、"坐下"等,则不然。这一事实表明图结构应该是数据依赖的,但这在ST - GCN中并不支持。
二、2s-AGCN
1.st-gcn
网络的特征图实际上是一个C × T × N的张量,其中N表示顶点数,T表示时间长度,C表示通道数。Wk 是权重, Ak 是邻接矩阵, Mk是注意力掩码, Kv是子集类别数,一般取3。
2.自适应图卷积层
`
``自适应图卷积层示意图。每层共有三种类型的图,即Ak,Bk和Ck。橙色方框表示该参数是可学习的。( 1 × 1)表示卷积核的大小。Kv表示子集的个数,⊕表示逐元的求和,⊗表示矩阵乘法。只有当Cin与Cout不同时,才需要使用残差盒(点线)。
公式描述:
图的拓扑结构实际上是由邻接矩阵和掩模决定的,分别为Ak和Mk。Ak决定两个顶点之间是否存在连接,Mk决定连接的强度。为了使图结构具有自适应性,我们改变了公式。
第一部分( Ak )与原方程中归一化的N × N邻接矩阵Ak相同.它代表了人体的物理结构。
第二部分( Bk )也是一个N × N的邻接矩阵。与Ak相反,Bk的元素在训练过程中与其他参数一起被参数化和优化。Bk的值没有任何约束,这意味着完全根据训练数据学习图。通过这种数据驱动的方式,模型可以学习到完全针对识别任务且针对不同层包含的不同信息更加个性化的图 因此,它不能生成原始物理图中不存在的新连接。从这个角度来看,Bk比Mk更灵活
第三部分( Ck )是一个数据依赖图,它为每个样本学习一个唯一的图。为了判断两个顶点之间是否存在连接以及连接的强度,我们采用归一化的嵌入高斯函数来计算两个顶点的相似度:
3.AGCN
自适应图卷积网络( AGCN )就是这些基本模块的堆叠,如图4所示。共有9个区块。每个块的输出通道数分别为64、64、64、128、128、128、256、256和256。在开始部分添加数据BN层,对输入数据进行归一化处理。在最后执行一个全局平均池化层,将不同样本的特征图池化到相同大小
每个块的三个数字分别代表输入通道数、输出通道数和步幅。GAP代表全局平均池化层。
4.总体架构图
给定一个样本,我们首先基于关节的数据计算骨骼的数据。然后,将关节数据和骨骼数据分别送入J流和B流。最后,将两个流的sof tmax得分相加得到融合得分并预测动作标签。