AGC-LSTM论文笔记
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
一种用于骨骼动作识别的注意增强图卷积LSTM网络
0. 摘要
0.1 本文论的任务:骨骼动作识别
0.2 挑战:如何有效提取区分性时空特征仍然是一个具有挑战性的问题
0.3 解决方法:AGC-LSTM网络
0.4 创新点: a. 提出的AGC-LSTM不仅能够捕捉空间构型和时间动态上的判别特征,而且能够探索空间和时间域的共生关系
b. 提出了一种时间层次结构来增加顶层AGC-LSTM的时间接受域,这提高了高级语义表示的学习能力,并显著降低了计算成本
c. 在此基础上,利用注意机制增强各AGC-LSTM层关键节点的信息,以选择有判别性的空间信息
1. 引言
1.1 介绍其应用
1.2 通过前人的方法引出现如今面临的挑战:如何有效提取区分性时空特征仍然是一个具有挑战性的问题;然后通过人体骨骼特征来引入AGC-LSTM网络的有效性
1.3 创新点
图一
一层AGC-LSTM结构:与传统的LSTM不同的是,AGC-LSTM中的图卷积算子使AGC-LSTM的输入、隐藏状态和单元内存都是图结构数据;然后在下图2显示了完整的AGC-LSTM结构
图二
创新点:a. 提出AGC-LSTM网络,将图卷积与LSTM融合。AGC-LSTM能够有效地捕获具有鉴别性的时空特征。
b. 注意机制被用来增强关键节点的特性,这有助于提高时空表达。
c.提出了一种时间层次结构,提高了学习高层次时空语义特征的能力,大大降低了计算量
算法大致流程:
首先将关节点坐标映射到线性层构成空间特征(FC),特征增强(FA)将空间特征和连续两帧之间的特征差异联系起来。LSTM模块用来消除关节点序列之间的尺度差异,由于AGC-LSTM中的图卷积算子,它不仅可以有效地捕捉空间构型和时间动态中的鉴别特征,而且还可以探索时空域的共现关系。时间空间池化(TAP)增强了AGC-LSTM接受的时空特征。
#FC:将三维的关节点坐标编码成256维的向量 Pti 表示该关节点的空间位置特征。
#帧间差分特征 Vti 表示关节点的动态信息。为了兼顾这两方面的优势,将这两个特征连接起来作为一种增广的特征来丰富特征信息。但是Pti 和 Vti 尺度不一致,利用LSTM归一化。
在LSTM之后会得到序列[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传作为节点特征送给AGC-LSTM。TAP是基于空间池化层改进成时间池化方法增加时态感受野。
2. 相关工作
2.1 在肯定前人贡献的同时引出忽略的问题:忽略了空间和时间域的共生关系;使用本文提出的AGC-LSTM网络可以解决
3. 模型架构
3.1 图卷积网络
表示 t 帧的人体骨骼图,Vt是关节点的集合,
是骨骼的集合。
是
邻域具其小于D的关节点的集合。
LSTM虽然能对时间序列建模,但其中的全连接算子会破坏关节点之间的空间关系。AGC-LSTM不仅可以捕捉时空的判别特征,还可以探索空间域和时域之间的共存关系。AGC-LSTM也具有LSTM的三个门控,分别叫输入状态 It ,隐藏状态 Ht 和记忆单元 Ct。区别在于AGC-LSTM是基于图卷积的结果。
4. 实验
4.1 实验数据集准备
4.2 实现细节
4.3 消融实验
首先表一体现了本文提出的方法在NTU RGB+D数据集上的两种协议(CS、CV)分别获得了95.0%和89.2%的最佳性能(与之前的方法进行对比)
表二与Northwestern-UCLA数据集上最先进的方法的精度比较
表三在NTU RGB+D数据集上比较几个baseline和我们的AGC-LSTM的结果
表四在Northwestern-UCLA数据集上,几个baseline与我们的AGC-LSTM之间的比较结果
进行了全面的比较来证明本文方法的优越性。
4.4 模型分析
(a)、(b)、©分别是AGCLSTM第一层、第二层和第三层的注意结果,增加本文方法的可信度。