读《Action Recognition Based on the Fusion of Graph Convolutional Networks with High Order Features》_fusion graph convolutional networks csdn-CSDN博客

本文提出了一种新的基于图卷积神经网络的动作识别方法，强调利用骨架数据的高阶时空特征，如速度、加速度和关节间的相对距离。通过多流特征融合，提取这些高阶信息以增强网络的表示能力。相比于传统方法，该方法更注重捕捉动作的速度差异和关节运动的变化，以提高识别准确性。实验表明，这种方法对于处理遮挡、光照变化等挑战具有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

图卷积神经网络利用骨架数据的时空特征在动作识别任务中很有用。
提取时空特征的常用方法纯粹依赖于一个深度网络来从原始的三维位置中学习。

本文提出了一种新的动作识别方法，利用骨架数据的高阶时空特征，如速度特征、加速度特征和三维关节之间的相对距离。同时，采用了一种多流特征融合的方法来融合提出的这些高阶特征。（摘要倒是没说明研究必要性和意义啊）

1.引言

动作识别的任务存在许多传统方法难以解决的问题，如如何处理遮挡、照明变化、人类动作在单帧内的定位和识别，以及提取帧级[1]的关系。
基于深度的人类动作识别方法取得了优异的性能，证明了三维表示在动作类分类中的有效性。
生物学观察研究也表明，即使没有外观信息，少数关节的位置也很有用[2]。
在识别人类行为方面，基于骨骼的人类表征因其在位置和外观变化方面的高水平表征和鲁棒性而引起了越来越多的关注。

一些基于图的神经网络[6-10]致力于学习时空特征的动作识别。同时，它们专注于捕捉空间中顶点之间的隐藏关系。但是，它们都忽略了骨架数据中隐藏的高阶信息。例如，可以从基于骨架的数据中提取每个顶点的速度、加速度和相对距离信息。
不同动作的速度值和方向都是不同的。在一帧中，对于身体的不同部位，加速度也是不同的。此外，有一些不同的动作具有相似的姿势模式，但具有不同的运动速度。例如，“抓住别人的东西”和“碰别人的口袋（偷窃）”之间的主要区别是运动速度。因此，利用这种高阶信息并提取判别表示是必要的。（从背景领域出发的必要性啊）

目前的空间特征是通过深度网络通过相邻矩阵提取的，而网络中没有考虑三维关节之间的相对距离，于是考虑使用深度学习来提取三维关节之间的相对距离，这代表了每个动作的姿势变化。
同时，从原始的三维关节中提取了广泛使用的时间特征。高阶运动特征，如关节的速度和加速度，从深度网络学习是nontrivial。通过显式地计算高级信息作为输入，深度网络能够学习到更高层次的时空特征。

2.相关

大多数研究都集中在基于RGB视频和基于骨架的动作识别的研究上。

2.1.基于rgb视频的方法

大多数研究将视频视为图像序列，然后逐帧对图像进行分析，学习空间和动态特征。

双流卷积神经网络[22]将卷积神经网络分为两部分，一个用于处理RGB图像，另一个用于处理光流图像
三维卷积T3D[27]

2.2 基于骨架的方法

在骨架分析中，如何处理单帧中节点之间的关系以及如何处理骨架序列中的帧间关系是非常重要的。
对于识别一个操作，并不是一个序列中的所有帧都具有相同的重要性

ST-GCN[6]是第一个基于图的动作识别神经网络。他们认为关节的空间结构和时间动力学对动作识别具有重要意义。
他们构建了时空图，在一系列骨架图之上形成，其中每个节点对应于人体的一个关节。单帧骨架中的边由人体的物理连接组成，时间维度的边缘由相应连接之间的连接组成。

在之前基于骨架的动作识别任务的工作中，只使用了关节的三维坐标信息。
然而，如何有效地提取可区分的时空特征仍然是一个具有挑战性的问题。
因此本文更多地关注高阶信息特性，提出的特征有利于动作识别

3.具有高阶特征的图卷积网络

本文提出的GCN由五个子网络组成，每个子网络都用于提取各种时空特征。
关节坐标、骨架和相对距离是空间特征，关节和骨架的速度和加速度是时间特征。
在这里插入图片描述

3.1.改进图卷积网络

ST-GCN [6]可以给边也赋权训练，M就是边权

如果As中的一个元素为零，它总是为零，这是不合理的。因此，本文做出修改。
此外，参考2S-AGCN[7]中的相似性矩阵来估计两个关节的相似性，并确定两个顶点之间是否存在连接以及连接有多强。
在这里插入图片描述
对于时域，可以看成固定两个邻居的节点（上一时刻下一时刻），所以采用简单的GCN使得空域时域能组合成一个图卷积模块