论文超详细精读|五千字：STGR_不平衡的感受野-CSDN博客

本文链接：https://blog.csdn.net/ianyue/article/details/127527855

文章目录

前言
总览
一、Introduction
- 背景
- 主要贡献
二、Related Works
三、Methods
四、Network Architecture and Optimization
- Discussion（讨论）

在这里插入图片描述

前言

笔者从人工智能小白的角度，力求能够从原文中解析出最高效率的知识。
之前看了很多博客去学习AI，但发现虽然有时候会感觉很省时间，但到了复现的时候就会傻眼，因为太多实现的细节没有提及。而且博客具有很强的主观性，因此我建议还是搭配原文来看。

请下载原文《Spatio-Temporal Graph Routing for Skeleton-Based Action Recognition》搭配阅读本文，会更高效哦！

若要更好地理解此篇文章，请参考其改进的前身：
【读前请读】：《论文超详细精读|六千字：ST-GCN》
以及，同样以ST-GCN为基础改进的：
【读后再读】：《论文超详细精读|万字：2s-AGCN》
【读后再读】：《论文超详细精读|八千字：AS-GCN》

总览

首先，看完标题，摘要和结论，我了解到了以下信息：
1.提出了一种新的基于骨架的动作识别的时空图路由(STGR)方法，该方法自适应地学习物理上分离的骨骼关节的内在高阶连通性关系，解决了预定义人体结构的不足。
2.具体来说，该方法由两部分组成：空间图路由（SGR）、时间图路由（TGR）。SGR的目的是基于子群聚类在空间维度上发现关节之间的连通性关系，而TGR则是通过测量关节节点时间轨迹之间的相关程度来探索结构信息。
3.该方法被自然地无缝地整合到图卷积网络(GCNs)框架中，生成一组骨架-关节-连通性图，并进一步输入到分类网络中。
4.此外，还对图节点的接受域进行了深入的分析，说明了该方法的必要性。

一、Introduction

背景

基于骨骼的人体动作识别：输入：以三维人体坐标，输出：动作类别。
人体骨骼将人体几何构型表征为刚体，其动力学以连续的方式捕捉运动模式。这种动态几何结构不仅在空间上而且在时间上表达了关节之间的关系，采用的是GCN的网络结构。通常，基于图的方法将固定的人体骨架应用到图卷积运算中，并用邻域特征迭代聚合隐藏特征。
在复杂场景中捕捉多变的人体结构是一项挑战。这就带来了三个需要进一步改进的问题:
1)骨骼本身是可变的，依赖于特定的数据集。例如NTURGB+D中有25个关节(Shahroudy et al. 2016)，而Kinetics中有18个关节(Kay et al. 2017)，导致对真实人体骨骼的混淆。
2)接头连接高度不平衡。躯干关节过度平滑，肢体关节仍可能欠平滑，导致肢体关节特征共享极为困难。
3)对每个样本采用全局图结构。提出了“一刀切”的问题，这可能是次优的。在固定的图中，数据流被限制在预定义的条目中，这大大降低了模型的灵活性。通过与计算机网络的类比，我们将其称为“静态路由”。
本文更注重寻找更灵活的连接方案，针对特定样本自适应学习骨架节点之间的内在高阶连通性，即“动态路由”。在现实场景中，动态骨架本身嵌入了丰富的信息，隐式地显示了两个物理上分离的关节之间的强烈联系，例如动作类“拍手”中的两个手部关节。因此，本文将这个动态路由问题表述为一个图拓扑学习问题，该问题自动为所有节点选择信息量最大的连接。

主要贡献

在这里插入图片描述

如上图，三种路由方式的说明:
(a)通过物理连接的固定路由。
(b)考虑局部聚类的空间路由。
(c)通过建模节点轨迹的相关度来实现时间路由。
提出了一种新的时空图路由方案，利用骨架节点之间的内在高阶关系。
该模块与分类网络共同学习，更好地匹配动作识别任务。
在图节点上提出了感受野，证明了之前模型的瓶颈是不同节点不平衡的感受野，证明了本文的时空图路由方案的有效性。

二、Related Works

Skeleton-based Action Recognition.（骨架动作识别）

传统的基于骨骼的动作识别方法主要关注于手工制作的关节运动动态特征，如轨迹的协方差矩阵。后有基于CNN的端到端的方法被提出，以多种方式将原始骨架转换为伪图像。

Recurrent Neural Networks（RNN）

循环神经网络有效地模拟了时间依赖性。为了更好地处理复杂的时空变化因素，宋、刘等人提出了保证鲁棒性要求的注意机制，如关键帧选择(Song et al. 2017)和全局信息关节挖掘(Liu et al. 2017)。

Graph Neural Networks（图神经网络）

两种方法：1.谱域：基于图傅里叶变换。2.空间域：学习迭代聚合每个节点的领域作为其新的隐式表示。本文采用第二种。

三、Methods

在本节中，

阐述本文的问题。
通过分别描述两个子网络(SGR和TGR)来介绍时空图路由(STGR)方案。
描述总体架构和优化。
在图上讨论了感受野，进一步验证了STGR的必要性。

Problem Formulation（问题阐述）

三维人体骨架记为 $\{x^t_n\}∈\mathbb{R}^{C_{in}×T ×N}$ ，有 $T$ 帧和 $N$ 个关节。每个个体都表示为第 $n$ 个关节在第 $t$ 个时间步处的 $x yz$ 坐标特征向量，因此 $C_{in} = 3$ 。
在这里插入图片描述
首先将输入的三维骨架序列分别转换为时间帧骨架轨迹和节点轨迹。空间图路由器(SGR)和时间图路由器(TGR)分别生成新的骨架-关节-连通性图。ST-GCN接收这些图形并输出操作类。

Spatial Graph Router Sub-network（空间图路由器子网）

在这里插入图片描述

在现实世界的场景中，关节通常聚集在一起来表达一个特定的动作。换句话说，每个关节的位置和成对关节之间的距离编码了关系的强度，这对引导信息流至关重要。

Spatial Graph Pool（空间图pool）

为了提取空间连通图，首先对每个帧骨架 $X^t∈\mathbb{R}^{C_{in}×N}$ 使用非参数图割聚类方法(Shi and Malik 2000)，形成 $K$ 个子群。对于每个子组，其视为一个完全连通图，即每两个节点在同一子组内是连通的。通过这种方式，作者为每个帧 $t$ 定义一个空间连通图，并将所有这些图集合起来形成“空间图池”。

Squeeze-and-Excitation Attention(挤压&激发注意力)

由于已经获得了一系列空间连通图，作者的目标是选择信息最丰富的一个作为代表。为此，作者提出了一种用于图融合的联合学习帧重要性的帧注意机制。如图3所示，我们以挤压和激发的方式对框架注意力进行建模(Hu、Shenin和Sun 2018)。首先采用7×7的大卷积来聚集局部特征。然后通过全局平均汇集层进行挤压操作，以获得中间特征。

Temporal Graph Router Sub-network（时间图路由器子网）

在这里插入图片描述

LSTM encoder（LSTM编码器）

Relation modeling（关系建模）

在编码的特征空间中对成对节点关系进行建模。作者用归一化点积来度量这种关系。实现：给定每个轨迹的编码特征 $v=[v_1，...，v_n]$ ，成对相似度被提出。

四、Network Architecture and Optimization

1.模型由STGR和ST-GCN构建。STGR负责探索空间和时间域中语义相关关节的内在连通性关系。ST-GCN将3D骨架和图形作为输入输出动作类别。
2.ST-GCN堆叠了多个用于表征学习的“GCN-TCN”单元，其中每个“GCN-TCN”单元被视为一层。每个GCN单元在空间维度上与缺省图GDefault和学习图Gspat和Gtemp进行图形卷积运算，而TCN单元在时间维度上应用TCN单元来获得高级特征图feature map。
在这里插入图片描述
3种连接类型的比较：

(a)物理连接;
(b)学会的与SGR的空间联系。
(c)学会的TGR的时间连接。
上面是矩阵表示，下面是相应的关节连接可视化图。
为了展示更加清晰，在可视化中使用阈值0.05对连接进行了二值化。

其中 $\{\mathcal{G}^{default}, \mathcal{G}^{spit}, \mathcal{G}^{temp}\}$ 。
$M_\mathcal{G}$ 和 $w^l_\mathcal{G}$ 是对应于特定图的掩码和卷积。
作者将多个GCN-TCN单元进行叠加，然后应用全局平均池化和全连接层，得到了动作评分。

Discussion（讨论）

在本节中，作者以分析的方式验证了STGR的必要性。首先介绍了“感受野”的直观定义，然后指出人体骨骼的“星形结构”使得肢体节点间的特征难以共享的情况。
上图，说明了3种类型的连接模式。预定义的骨架组织自己形成一个“星形结构”，其中一个躯干连接头部和所有的四肢。这样，躯干中心关节的伸展速度会远远快于肢体边缘关节，导致严重的不平衡。

在这里插入图片描述
上图中检查了肢体关节(右手)和躯干关节(下背部)的感受野。
继之前的文献(Xu et al. 2018)之后，作者将图卷积的扩展转化为 $k$ 步随机游走过程。颜色表示节点接收到的信息的比例。如上图所示，经过3步扩散后，两个关节接收到的信息范围都比较小。经过8步，躯干关节几乎可以接收全局信息，而右手关节仍在小范围内挣扎。