《Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition》论文阅读之2s-AGCN

paper:2s-AGCN

code :2s-AGCN

 

摘要

在基于骨架的动作识别中,将人体骨架建模为时空图的图形卷积网络(GCN)取得了显著的效果。然而,在现有的基于GCN的方法中,图的拓扑结构是手动设置的,并且它固定在所有层和输入样本上。对于行动识别任务中的分层GCN和不同的样本,这可能不是最佳选择。此外,在现有的方法中,很少研究骨骼数据的二阶信息(骨骼的长度和方向),这对于动作识别来说自然更具信息性和识别性。

在这项工作中,我们提出了一种新的双流自适应图卷积网络(2sAGCN)用于基于骨架的动作识别。

该模型中的图拓扑结构可以由BP算法以端到端的方式统一学习,也可以单独学习。这种数据驱动的方法提高了模型的灵活性,为适应各种数据样本带来了更广泛的通用性。此外,提出了一种一阶和二阶信息同时建模的双流框架,这对识别精度有显著提高。对NTU-RGBD和Kineticskeleton这两个大型数据集进行了大量的实验,结果表明,我们的模型的性能大幅超过了最先进的水平。

 

Introduction

基于骨架数据的动作识别方法因其对动态环境和复杂背景的适应性强而受到广泛研究和重视。但是,将骨架数据表示为矢量序列或二维网格不能完全表示相关关节之间的依赖关系。骨架在非欧几里得空间中自然地被构造成一个图,其中关节作为顶点及其在人体中作为边缘的自然连接。以前的方法不能利用骨架数据的图形结构,很难推广到任意形状的骨架。近年来,将卷积从图像推广到图形的图形卷积网络(GCN)在许多应用中得到了成功的应用。

对于基于骨骼的动作识别任务,香港中文大学提出一种时空图卷积网络,并利用它们进行人类行为识别。这种算法基于人类关节位置的时间序列表示而对动态骨骼建模,并将图卷积扩展为时空图卷积网络而捕捉这种时空的变化关系。Yan等人率先提出GCN对骨架数据进行建模。他们根据人体关节的自然连接构造了一个空间图,并在连续的帧中添加相应关节之间的时间边缘。提出了一种基于距离的采样函数来构造图卷积层,并以此为基本模块来构造最终的时空图卷积网络(ST-GCN)。

但是,这一过程有三个缺点,ST-GCN中的图形结构:

(1)ST-GCN中使用的骨架图是启发式预定义的,并且仅表示人体的物理结构。因此,它不能保证对动作识别任务是最优的。例如,双手之间的关系对于识别诸如“拍手”和“阅读”之类的类很重要。然而,ST-GCN很难捕捉到双手之间的依赖关系,因为它们在预先定义的基于人体的图形中彼此相距很远。

(2)GCN的结构是层次结构,不同的层次包含多级语义信息。然而,ST-GCN中应用的图的拓扑结构在所有层上都是固定的,缺乏对所有层中包含的多级语义信息进行建模的灵活性和能力;

(3)对于不同行为类别的所有样本,一个固定图结构可能不是最优的。对于“擦脸”和“摸头”这类类别,手和头之间的联系应该更紧密,但对于其他一些类别,如“跳起来”和“坐下来”则不是这样。这一事实表明,图结构应该依赖于数据,然而,ST-GCN不支持这种依赖性。

 

为了解决上述问题,本文提出了一种新的自适应图卷积网络。它参数化两种类型的图,其结构与模型的卷积参数一起训练和更新。一种类型是全局图,它表示所有数据的通用模式。另一种类型是单独的图形,它表示每个数据的唯一模式。这两种类型的图都针对不同的层进行了单独的优化,可以更好地适应模型的层次结构。这种数据驱动的方法提高了模型的灵活性,为适应各种数据样本带来了更广泛的通用性。

ST-GCN中另一个值得注意的问题是,每个顶点上的特征向量只包含关节的二维或三维坐标,可以将其视为骨架数据的一阶信息。然而,代表两关节间骨骼特征的二阶信息并没有被利用。通常情况下,骨骼的长度和方向对于动作识别来说自然更具信息性和识别性。为了利用骨骼数据的二阶信息,将骨骼的长度和方向表示为从其源关节指向目标关节的向量。与一阶信息相似,矢量被输入一个自适应图卷积网络来预测动作标签。同时,提出了一种融合一阶和二阶信息的双流框架,进一步提高了系统的性能。

为了验证该模型的优越性,即双流自适应图卷积网络(2sAGCN),在两个大规模数据集上进行了广泛的实验:NTU-RGBD[27]和Kineticskeleton[12]。我们的模型在两个数据集上都实现了最先进的性能。

我们工作的主要贡献有三个方面:

(1)提出了一种自适应图卷积网络,以端到端的方式自适应地学习不同GCN层和骨架样本的图的拓扑结构,能够更好地适应GCN的动作识别任务和层次结构。
(2)骨架数据的二阶信息采用双流框架显式地表示并与一阶信息相结合,对识别性能有显著提高。

(3)在两个大规模的基于骨架的动作识别数据集上,所提出的2s-Agcn大大超过了最先进的水平。

 

 

实验结果

 

 

 

细节后期更新...........

 

 

 

 

 

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制,可以提高模型的性能和效率。它通过对每个通道的特征图进行加权,使得网络可以更好地学习到重要的特征。ECA-Net的设计简单,易于实现,并且可以与各种深度卷积神经网络结构相结合使用。 ### 回答2: ECA-Net是一种用于深度卷积神经网络的高效通道注意力机制。 ECA-Net通过提出一种名为"Efficient Channel Attention"(ECA)的注意力机制,来增强深度卷积神经网络的性能。通道注意力是一种用于自适应调整不同通道的特征响应权重的机制,有助于网络更好地理解和利用输入数据的特征表示。 相比于以往的注意力机制,ECA-Net采用了一种高效且可扩展的方式来计算通道注意力。它不需要生成任何中间的注意力映射,而是通过利用自适应全局平均池化运算直接计算出通道注意力权重。这种方法极大地降低了计算和存储开销,使得ECA-Net在实际应用中更具实用性。 在进行通道注意力计算时,ECA-Net引入了两个重要的参数:G和K。其中,G表示每个通道注意力的计算要考虑的特征图的大小;K是用于精细控制计算量和模型性能之间平衡的超参数。 ECA-Net在各种视觉任务中的实验结果表明,在相同的模型结构和计算资源下,它能够显著提升网络的性能。ECA-Net对不同层级的特征表示都有显著的改进,能够更好地捕捉不同特征之间的关联和重要性。 总之,ECA-Net提供了一种高效并且可扩展的通道注意力机制,可以有效提升深度卷积神经网络的性能。它在计算和存储开销上的优势使得它成为一个非常有价值的工具,可在各种计算资源受限的应用中广泛应用。 ### 回答3: "eca-net: efficient channel attention for deep convolutional neural networks" 是一种用于深度卷积神经网络的高效通道注意力模块。这一模块旨在提高网络对不同通道(特征)之间的关联性的理解能力,以提升网络性能。 该方法通过引入了一个新的注意力机制来实现高效的通道注意力。传统的通道注意力机制通常是基于全局池化操作来计算通道之间的关联性,这种方法需要较高的计算成本。而ECA-Net则通过引入一个参数化的卷积核来计算通道之间的关联性,可以显著减少计算量。 具体来说,ECA-Net使用了一维自适应卷积(adaptive convolution)来计算通道注意力。自适应卷积核根据通道特征的统计信息来调整自身的权重,从而自适应地计算每个通道的注意力权重。这样就可以根据每个通道的信息贡献度来调整其权重,提高网络的泛化能力和性能。 ECA-Net在各种图像分类任务中进行了实验证明了其有效性。实验结果显示,ECA-Net在相同计算预算下,相比其他通道注意力方法,可以获得更高的分类精度。同时,ECA-Net还具有较少的额外计算成本和模型大小,使得其在实际应用中更加高效。 总结而言,"eca-net: efficient channel attention for deep convolutional neural networks" 提出了一种高效通道注意力方法,通过引入自适应卷积核来计算通道注意力,从而提高了深度卷积神经网络的性能。这一方法在实验中取得了良好的效果,并且具有较少的计算成本和模型大小。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值