论文翻译：混合维在庞加莱几何三维骨架的动作识别

最新推荐文章于 2023-06-17 17:38:27 发布

王壹浪

最新推荐文章于 2023-06-17 17:38:27 发布

阅读量1k

点赞数

分类专栏：心得人工智能文章标签：网络大数据算法 python

本文链接：https://blog.csdn.net/com_fang_bean/article/details/108529957

版权

论文提出了一种新的时空图卷积网络（ST-GCN）架构，该架构基于庞加莱几何，以更好地建模骨架数据的潜在解剖结构。通过混合不同维度在流形上进行学习，该方法在3D动作识别任务中实现了优于现有GCN方法的性能，同时减少了模型规模。

摘要由CSDN通过智能技术生成

Graph Convolutional Networks (GCNs)已经展示了其对不规则数据(如人体动作识别中的骨骼数据)建模的强大能力，这提供了一种令人兴奋的新方法，为居住在图中不同部分的节点融合丰富的结构信息。在人类动作识别中，现有的研究引入了动态图形生成机制，以更好地捕捉隐含的语义骨架连接，从而提高了识别性能。在本文中，我们提供了一种正交的方法来探索底层连接。而不是引入昂贵的动态。我们认为这是一个更适合对图数据进行建模的空间，可以使提取的表示与嵌入矩阵相匹配。具体来说，我们提出了一种新的时空GCN (ST-GCN)架构，它是通过庞加莱几何学定义的，这样它就能够更好地建模结构数据的潜在解剖结构。为了进一步探索黎曼空间的最优投影维数，我们在流形上混合了不同的维数，为每个STGCN层的维数探索提供了一种有效的方法在最终的结果架构中，我们在两个目前规模最大的3D数据集(即NTU)上评估我们的方法RGB+D和NTU RGB+D 120。比较结果表明，该模型在40%模型规模的情况下，在任何给定的评价指标下都能取得比之前的最佳GCN方法更好的性能，证明了该模型的有效性。

人的动作识别是计算机视觉研究的重要课题之一。它可以为许多潜在的应用做出贡献，如人类行为分析、视频理解和虚拟现实。一般来说，有几种不同的模态，例如，外观，深度，光流，骨架数据，被利用在动作识别任务。最近，基于骨架的人类动作识别引起了相当多的关注，因为紧凑的骨架数据使模型对于视点和环境的变化更加有效和健壮。在本文中，我们关注的是基于骨架的三维动作识别问题，并期望提供一个更鲁棒的神经网络来完成这项任务。最近，graph convolutional networks (GCNs) (Defferrard, Bresson, and Vandergheynst 2016;在基于骨架的动作识别中，成功地采用了时间卷积网络ST-GCNs (Kipf and Welling 2016)，保持了骨骼的自然拓扑结构。Yan等首先提出了时空图卷积网络(Yan, Xiong, and Lin) 2018)，该任务将神经结构解耦为GCN来捕获空间信息和1D卷积过滤器来建模动态信息。在GCN部分，当前的ST-GCN方法提供了一个预定义的图嵌入矩阵来编码骨架拓扑这个矩阵和骨架序列数据一起被送入ST-GCNs以提取高级表示。然而，正如工作中提到的(Peng et al.)。2020)，固定的图嵌入矩阵会将约束引入到特征学习过程中，可能不利于更高层次的表示，对最终的分类产生负面影响。因此，在(Shi et al. 2019;Peng et al. 2020)提出了一种全局或分层动态图生成范式，以打破学习约束。实验证明了动态图生成机制可以进一步提高该任务的性能。

本文旨在从另一个角度处理基于骨架的人类动作识别任务。代替提供一个动态的嵌入图，我们转向探索一个更好的建模空间的骨架图序列。尽管目前深神经网络在欧氏空间的特征表示取得了成功，但图数据被证明具有高度非欧氏潜在解剖学特征但据我们所知，之前的ST-GCNs (Yan, Xiong, and Lin 2018;Shi等2019年;(Peng et al. 2020)是在欧几里得空间中定义的，这可能不是层次图数据建模的最佳选择。我们认为，神经网络操作直接定义在一个数据相关的空间，例如，双曲人ifold (Benedetti and Petronio 2012)对学习过程有益。为此，在本文中，我们提出了一个特殊的双曲几何模型上的时空图卷积网络，即庞加模型(Benedetti and)
Petronio 2012)。双曲几何，这是一个非欧几里得几何与常数负高斯曲率，最近在深度神经网络的背景下获得了越来越多的动量，tree-likeliness属性。在双曲几何上建立STGCN可以从双曲距离中受益，因为不相关样本之间的距离会以指数形式大于相似样本之间的距离。我们的方法与动态图生成方法是正交的，本文研究了一种更合理的流形投影，使投影特征更适合给定的嵌入矩阵，而不是通过计算节点嵌入相似度来生成动态嵌入图。双曲空间中样本之间的关系可以强调相似样本，抑制不相关样本。此外，我们的方法对于图序列数据也更通用，因为它们自然处于非欧几里得空间。然而，采用具有非欧几里得设置的深度神经网络是具有挑战性的，因为基本操作(如卷积)的原则性推广并非无关紧要。受工作的启发(Gulcehre et al. 2018)，我们从双曲空间和切线空间之间的投影中得到帮助。由于它们之间存在双射，所以在切空间上进行卷积操作，然后提取的特征将被投影回流形上的一条轨迹。通过将特征投影回流形，可以得到嵌入在双曲空间上的图。为了进一