InfoGCN学习笔记

InfoGCN提出了一种新颖的信息瓶颈学习目标和SA-GC自注意力图卷积模块,用于捕捉骨架数据中的内在拓扑结构。通过融合时空信息和内在关系,InfoGCN在动作识别任务中表现出色,尤其是在3个数据集上达到最先进的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

infogcn的贡献如下:
·信息瓶颈目标。 我们引入了一个新颖的基于IB的学习目标,旨在学习一个有效的压缩行为的潜在表示。·
基于自注意力机制的图卷积。我们提出了一个SA - GC模块,在骨架的空间建模中推断上下文相关的内在拓扑结构。·
多模态表示。我们为模型集成提出了一种骨架的多模态表示,从而极大地改善了行为识别性能。
**·经验验证。**大量的实验证明了我们工作的优势。在基于骨架的行为识别中,InfoGCN在3个数据集上都取得了最先进的性能。


一、之前工作的不足

各种各样的图,包括时空图和有向图,已经被提出来模拟骨架。多尺度图卷积(MS-G3D)已经被提出来捕捉关节的长程依赖关系。尽管如此,这些方法不能够表示内在的拓扑结构,限制了捕获动作的上下文信息的能力
最近的工作专注于能够推断内在关系的联合拓扑建模。AS-GCN 和2sAGCN 提出了从数据中自适应学习联合关系的方法。然而,由于捕获的拓扑结构与姿势无关,因此对姿势随时间变化的动作的上下文编码存在困难。
CTR-GCN 在上下文相关的本征拓扑建模方面与我们的工作类似。与我们的工作不同,CTR - GCN侧重于在不同的嵌入通道中嵌入联合拓扑。
同时,与以前的研究只关注骨架的时空特征聚合不同,据我们所知,InfoGCN是第一个利用信息论目标来更好地表示潜在信息的方法。

二、infogcn具体工作

1.基于信息瓶颈的学习目标和相应的损失

在这里插入图片描述
输入变量X(骨架序列),目标变量Y(一个动作标签),包含压缩信息的随机潜变量Z
编码器推断关节的内在拓扑结构,提供了物理连通性之外的上下文信息。底部的彩色线表示推断的内在拓扑结构,厚度代表关系的强度。

2.学习内在拓扑的必要性

在论文中提到的内在拓扑(Intrinsic Topology)和外在拓扑(Extrinsic Topology)是指人体骨架数据中两种不同类型的关节连接关系:
外在拓扑是指人体骨架中基于物理连接性的关节关系,即骨架中关节之间的实际物理连接。
在骨架数据中,外在拓扑可以通过骨架的邻接矩阵来表示,其中矩阵的元素如果两个关节是物理连接的,则为1,否则为0。通常反映了骨架的几何结构,例如,手腕关节与前臂骨相连,而与腿部骨不相连。
内在拓扑是指人体骨架中基于动作行为的关节关系,这种关系不一定基于物理连接,而是基于关节在进行特定动作时的动态和功能性联系。例如,在进行“自拍”动作时,尽管手和上肢在物理上是连接的,但手持手机的动作可能会使得手与上肢的某些部分(如肩膀或躯干)之间形成一种特殊的、与动作行为相关的内在联系。
内在拓扑提供了一种更加细致的方式来理解骨架数据,它允许模型识别出在进行特定动作时关节之间的复杂相互作用和依赖关系。
在动作识别任务中,外在拓扑提供了骨架结构的基础信息,而内在拓扑则提供了动作执行过程中关节之间更深层次的动态联系。通过结合这两种拓扑信息,可以更准确地捕捉到人体动作的复杂性,从而提高动作识别的性能。
InfoGCN框架中的SAGC模块正是利用了自注意力机制来推断和利用这种内在拓扑,以增强模型对骨架数据的理解,进而提升动作识别的准确性。

3.SA-GC自注意力机制捕捉内在拓扑结构

在这里插入图片描述

自注意力是一种将身体不同关节联系起来的注意力机制。考虑所有可能的联合关系,SA - GC推断正的、有界的权重,称为自注意力图,以表示关系的强度。

4.总体网络图

在这里插入图片描述
在论文中提到的神经网络架构里,输入 ( x ) 通常指的是模型的输入数据,对于骨架动作识别任务来说,( x ) 代表的是骨架序列数据。具体来说,骨架序列由一系列骨架帧组成,每一帧包含了人体关节的位置信息。这些关节的位置信息可以被用来表示人体的姿态和动作。

位置嵌入(Positional Embedding, PE)是用来向模型提供关于骨架序列中各个骨架帧时间位置的信息。在处理序列数据时,PE 的目的是让模型能够理解序列中不同时间步长之间的关系。在自然语言处理中,位置编码通常是固定的并且预先定义的,而在某些情况下,PE 可以是可学习的参数,这样模型就可以从数据中学习到最佳的嵌入表示。

在论文中提到的骨架动作识别的上下文中,( x ) 和 PE 的关系可以这样理解:

  1. 输入数据 ( x )

    • ( x ) 是指输入的骨架序列数据,其中每一帧包含了身体各关节的三维坐标信息。
    • 骨架序列可以表示为一个三维张量 ( X \in \mathbb{R}^{T \times N \times C} ),其中 ( T ) 是序列的总帧数,( N ) 是骨架中关节的数量,( C ) 是每个关节的特征维度(通常是3,代表三维空间中的坐标)。
  2. 位置嵌入 PE

    • PE 是用来注入关节在时间序列中的位置信息的一种嵌入表示。
    • 在论文的嵌入块(Embedding Block)中,PE 被添加到骨架的原始关节特征上,以此来提供时间位置的上下文信息。
  3. 结合 ( x ) 和 PE

    • 通过将位置嵌入PE加到骨架特征 ( X ) 上,可以得到一个新的表示 ( H(0)_t ),它同时包含了骨架的空间信息和时间位置信息。
    • 这个过程可以用下面的公式表示:[ H(0)_t = \text{Linear}(X_t) + \text{PE} ],其中 ( \text{Linear} ) 表示一个可学习的线性变换,( X_t ) 是在时间步 ( t ) 的骨架关节特征,( H(0)_t ) 是加入位置信息后的表示。

通过这种方式,PE 帮助模型理解骨架序列中每个关节随时间变化的位置,从而使得模型能够更准确地捕捉到动作的动态特性,并提高动作识别的性能。
这里面的MSTCN 就是MSG3D里的MSTCN
在论文中提出的InfoGCN框架里,SA-GC(自注意力图卷积)和MS-TC(多尺度时间卷积)是编码器的两个关键组件,它们共同负责提取骨架序列的时空特征。以下是它们各自的作用:

  1. SA-GC(自注意力图卷积)

    • 作用:SA-GC模块的目的是通过自注意力机制捕捉骨架中关节的内在拓扑结构,这种结构是基于动作行为的上下文信息,而不是仅仅基于物理连接。
    • 空间建模:SA-GC通过自注意力图来推断关节之间的复杂关系,这些关系可以是不对称的,反映了关节在特定动作中的实际交互方式。
    • 上下文感知:SA-GC能够适应性地学习骨架数据中的上下文信息,为每个动作提供丰富的空间特征表示。
  2. MS-TC(多尺度时间卷积)

    • 作用:MS-TC模块用于建模骨架序列中的时间动态,即骨架随时间变化的特征。
    • 时间建模:MS-TC通过不同尺度的时间卷积来捕捉骨架在不同时间尺度上的运动模式,这有助于模型理解动作的动态过程。
    • 多尺度信息:通过使用不同大小的卷积核和扩张率(dilation rates),MS-TC能够捕捉到不同时间尺度上的动作特征,从而提供更丰富的时间信息。

这两个模块在编码器中协同工作,SA-GC负责提取骨架的空间特征,而MS-TC负责提取时间特征。通过结合这两种类型的信息,编码器能够生成一个包含丰富时空信息的潜在表示,这个表示随后被送入分类器进行动作分类。这种设计使得InfoGCN能够有效地处理骨架数据,并在动作识别任务中取得了优异的性能。

在论文中提到的全局池化(Global Pooling)通常指的是全局平均池化(Global Average Pooling, GAP),它在神经网络的架构中扮演着重要角色。全局池化在InfoGCN框架中的作用包括:

  1. 降维(Dimensionality Reduction)

    • 全局池化可以将多维特征映射(例如,骨架序列的高维表示)简化为一个固定大小的低维表示,这有助于减少模型的参数数量和计算复杂度。
  2. 不变性(Invariance)

    • 通过全局池化,模型能够学习到对输入骨架序列的某些变化(如尺度、位置或姿态变化)具有不变性的特征表示,这对于动作识别尤其重要。
  3. 聚合特征(Feature Aggregation)

    • GAP通过计算骨架序列中所有帧的特征的元素级平均值来聚合时间维度上的信息,从而生成一个综合了整个序列信息的单一向量。
  4. 简化分类器(Classifier Simplification)

    • 由于全局池化提供了一个固定大小的输出,它简化了分类器的设计,使得分类器(通常是一个或多个全连接层)可以更加专注于学习特征到类别的映射,而不是处理不同尺寸的输入。
  5. 提高效率(Efficiency)

    • GAP操作相对于其他复杂的池化操作来说计算成本较低,这有助于提高模型的计算效率。
  6. 保持信息(Information Preservation)

    • 适当的全局池化能够在降维的同时保留足够的信息量,使得分类器能够做出准确的预测。

在InfoGCN中,全局平均池化通常位于编码器的最后阶段,它将编码器的输出转换为一个用于分类的固定长度的向量。这个向量随后被送入一个或多个全连接层,最终通过softmax层输出每个动作类别的概率。全局池化是InfoGCN能够实现优秀性能的关键因素之一。

5.损失函数

在这里插入图片描述


总结

2022CVPR

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值