【论文学习】AGC-LSTM：An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Reco

最新推荐文章于 2022-06-20 16:46:07 发布

KrystalKarlieKarina

最新推荐文章于 2022-06-20 16:46:07 发布

阅读量981

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/LoveKKarlie_/article/details/114654904

版权

An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

CVPR2019

基于骨架的注意力增强图卷积LSTM网络行为识别方法

优点：AGC-LSTM可以有效地捕捉空间配置和时间动态中的区别特征，还可以探索空间和时间域之间的共现关系，提高了学习高层时空语义特征的能力，并显著降低了计算成本，对每层上的关键关节点进行增强处理从而选择到有区分性的空间信息。

摘要：

注意力增强图卷积LSTM网络Attention Enhanced Graph Convolutional LSTM Network（AGC-LSTM），用于从骨架数据中识别人体动作。所提出的AGC-LSTM不仅可以捕获空间配置和时间动态的判别特征，还可以探索空间域和时域之间的共现关系。文章还提出了一种时间层次结构，以增加顶级AGC-LSTM层的时间感受域，这提高了学习高级语义表示的能力，并显着降低了计算成本。为了选择判别空间信息，采用注意力机制来增强每个AGC-LSTM层中关键关节的信息。
在这里插入图片描述

图1：AGC-LSTM中的图形卷积算子使得AGC-LSTM的输入、隐藏状态和单元存储器成为图形结构的数据。

1.介绍

基于RGB视频的动作识别方法
- 主要关注于从RGB帧和时间光流中建模空间和时间表示
- 局限性如背景杂波、光照变化、外观变化等
基于3D骨架数据的动作识别方法
- 用一组关键关节的3D坐标位置来表示身体结构。
- 由于骨架序列不包含颜色信息，因此不受RGB视频的限制。
- 这种健壮的表示允许对人类行为的更具区别性的时间特征进行建模。
- 关键关节可以提供关于人类运动的高效信息。
- Microsoft Kinect和先进的人体姿态估计算法使得获取骨架数据变得更容易。

通常，人体骨骼序列的三个显著的特征：

每个节点与其相邻节点之间有很强的相关性，因此骨骼帧包含了丰富的人体结构信息。
时间连续性不仅存在于相同的关节(例如手、腕和肘)，而且存在于身体结构中。
空间域和时间域之间存在共现关系。

AGC-LSTM它通过同步学习上述时空特征来改进骨架表示。

在这里插入图片描述

图2：AGC-LSTM的体系结构：特征增强(FA)通过位置特征计算特征差异，并将位置特征和特征差异连接起来。LSTM用于消除特征差异和位置特征之间的尺度差异。三个AGC-LSTM层可以模拟有区别的时空特征。时间平均池是时间域中平均池的实现。文章使用所有关节的全局特征和来自最后一个AGC-LSTM层的聚焦关节的局部特征来预测人类动作的类别。

首先，每个关节的坐标被转换成具有线性层的空间特征。文章将两个连续帧之间的空间特征和特征差异连接起来，组成一个增强特征。为了消除两个特征之间的尺度差异，采用共享LSTM来处理每个联合序列。接下来，文章应用三个AGC-LSTM层来建模时空特征。由于AGC-LSTM中的图形卷积算子，不仅可以有效地捕捉空间配置和时间动态中的区别特征，还可以探索空间和时间域之间的共现关系。注意机制被用来在每个时间步长增强关键节点的特征来促进。AGC-LSTM学习更多的区别特征。AGC-LSTM提高了学习高层时空语义特征的能力，并显著降低了计算成本。最后，文章使用所有关节的全局特征和来自最后一个AGC-LSTM层的聚焦关节的局部特征来预测人类动作的类别。尽管基于联合的模型获得了最先进的结果，文章也在部件级别上探索了所提出的模型的性能。对于基于零件的模型，每个零件的连接作为一个节点来构造图形。此外，基于联合和部分的两流模型可以进一步提高性能。

文章的贡献：

提出了一个基于骨架数据进行行为识别的新的通用AGC-LSTM网络，是第一个进行图卷积LSTM网络实验的。
AGC-LSTM网络能够有效的抓取具有判别性的时空特征，注意力机制将被用于增强关节点的特征，有助于提高时空表达力。
提出了一个时间层次结构来增强学习学习高层时空语义特征的能力，并且能显著的降低计算成本。

2.相关工作

带图的神经网络
- 图神经网络GNN：是图形和递归神经网络的组合。通过节点的消息传递和状态更新的多次迭代，每个节点捕获其邻居节点内的语义关系和结构信息。
- 图卷积网络GCN：它将卷积神经网络推广到图。GCN有两种类型：频谱GCN和空间GCN。频谱GCNs在图谱域上变换图信号，然后在频谱域上应用频谱滤波器（例如依赖拉普拉斯图在频谱域利用CNN）。图卷积LSTM是GCN的具有递归结构的扩展。使用卷积运算以使用其邻域信息为每个节点计算新的特征向量。
基于骨架的动作识别
- 应用所有身体部分对之间的相对3D几何来表示3D人体骨骼。
- Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation. In IJCAI, 2018.提出分层的CNN模型学习联合共现和时间演化的表示形式。
- Kalpit Thakkar and P J Narayanan. Part-based graph convolutional network for action recognition. In BMVC, 2018.提出了一种基于零件的图卷积网络（PB-GCN）来学习零件之间的关系。
- Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan. Skeleton-based action recognition with spatial reasoning and temporal stack learning. In ECCV, 2018应用图神经网络捕获空间结构信息，然后使用LSTM建模时间动力学，尽管性能有了显着提高，但它忽略了时空特征之间的共现关系。
- 文章提出了一种新颖的注意力增强图卷积LSTM网络，该网络不仅可以有效地提取区分性的时空特征，而且可以探索时空域之间的共现关系。

3.模型结构

GCN
$\mathbf{Y}_{out}(v_{ti})=\sum_{v_{tj}\in\mathcal{N}(v_{ti})}{\frac{1}{Z_{ti}(v_{tj})}\mathbf{X}(v_{tj})\mathbf{W}(\ell(v_{tj}))}$
对对对 $\bf{X}(v_{tj})$ 是节点 $v_{tj}$ 的特征，W是一种权重函数， ${Z_{ti}(v_{tj})}$ 是相应子集的数目，将特征表示规范化， $\mathbf{Y}_{out}(v_{ti})$ 表示图在节点处的卷积输出。使用邻接矩阵：
$\mathbf{Y}_{out}=\sum_{k=1}^{K}{ {\mathbf{\Lambda}_{k}^{-{\frac{1}{2}}}\mathbf{A}}_{k}\mathbf{\Lambda}_{k}^{-{\frac{1}{2}}}\mathbf{X}\mathbf{W}_{k}}$
其中 $\mathbf{A}_{k}$ 是标号 $k\in\{1,2,...,K\}$ 的空间构型中的邻接矩阵， $\mathbf{\Lambda}_{k}^{ii}=\sum_{j}{\mathbf{A}_{k}^{ii}}$ 是一个表示度的矩阵。
AGC-LSTM
1. LSTM作为RNN的一个变种，具有惊人的建模长期时间依赖性的能力。
  
  AGC-LSTM也包含三个门：一个输入门 $\mathbf{i}_t$ ，一个忘记门 $\mathbf{f}_t$ ，一个输出门 $\mathbf{o}_f$ ，这些门是用图形卷积算子获得的，AGC-LSTM的的输入 $\mathbf{X}_t$ ，隐藏状态 $\mathbf{H}_t$ ，和单元存储

最低0.47元/天解锁文章

KrystalKarlieKarina

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【论文学习】AGC-LSTM：An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Reco

An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action RecognitionCVPR2019AGC-LSTM基于骨架的注意力增强图卷积LSTM网络行为识别方法。第一个将GCN和LSTM结合。
复制链接

扫一扫