12.Attention Mechanism Exploits Temporal Contexts: Real-time 3D Human Pose Reconstruction(CVPR 2020)
想解决的问题:
①传统方法通常在高度受控的环境下使用专用设备,例如多视图捕获、标记系统和多模态传感,这需要费力的设置过程,限制了它们的实际用途。这些工作的重点是从任意单目视频中进行三维姿态估计,由于人体动态的高维可变性和非线性,这些工作极具挑战性。端到端的学习过程减少了使用定制特征或空间约束的需要,从而最大限度地减少了特征错误,例如重复计算图像证据。
②虽然关于 3D 姿态预测的大量强大的深度模型正在出现(从卷积神经网络 (CNN) 到生成对抗网络 (GAN)),这些方法中的许多方法都专注于单个图像推断,这倾向于抖动运动或不精确的身体配置。为了解决这个问题,需要考虑时间信息以获得更好的运动一致性。
解决方法:
①在这项工作中,我们的目标是利用注意力模型进一步提高现有深度网络的准确性,同时保持视频中的自然时间连贯性。
贡献:
①开发一种系统方法,用于设计和训练基于注意力的模型,用于三个级别的姿势估计:2D 关节注意力、3D 到 2D 投影注意力和 3D 姿势注意力。
②通过扩张卷积的多尺度结构学习大时间感受野中的隐式依赖关系。
③设计集成基于注意力的模型和膨胀卷积结构的系统架构,以增强 3D 姿势推断,以促进性能驱动的动画应用。
网络框架:
Temporal Attention:给输出的张量提供贡献度量,每一个attention模块产生一组标量,权衡层内不同张量的重要性,根据经验,我们通过简单地计算标准化互相关(ncc)来获得理想的结果,该标准化互相关测量 Pi 和 Pt 在 2D 关节位置上的正余弦相似度:,输出 W(0) 被转发到注意力矩阵 θt(l) 以为后续层生成张量权重。
Kernel Attention:类似于时序注意力一样,在每一层的kernel注意力模块设计一个通道权重分配w(l),上图右半部分描述了如何通过权重调整更新tensor T(l),给定一个输入tensor T(l)∈RC*F,使用M个带有不同的dilation比率的TCN产生M个新的Tm(l),然后将它们进行各元素求和,后输入global average pooling layer生成channel-wise statistics T(l)∈RC*1,得到的T(l)被转发到全连接层以学习不同内核大小的特征之间的关系,,θ用来减少通道维度,
、
13.Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation(2024)
想解决的问题:
①由于注意力机制的局限性,基于电流互感器的方法经常面临挑战,这可能导致它们产生的信息缺乏多样性和深度。
②有工作证明相邻层特征的聚合在融合空间信息和语义方面非常有效。然而,在 Transformer 架构中,这种特征聚合方案尚未得到充分探索。
解决方法:
①我们的框架分为两个主要的组成部分:Temporal Pyramidal Compression-and-Amplification (TPCA) module and a cross-layer feature refinement (XLR) module
②TPCA模块将特征细化直接与注意力操作相吻合,旨在利用时间金字塔结构,从而能够从块内注意机制中提取多尺度信息。
③XLR模块允许后期 transformer 块无缝访问早期的键和值,促进注意力驱动的学习并促进块间模块之间的交互。
贡献:
①RTPCA 框架开发:我们推出了 RTPCA,一种用于 3D 姿态估计的新颖方法。该方法解决了传统基于变压器的方法的固有局限性,有效促进了注意力机制的综合利用,增强了模型的鲁棒性和稳定性。
②压缩和放大设计:我们的 TPCA 模块建立在时间金字塔压缩和放大结构的基础上,是一种增强块内多尺度键和值表示的新颖解决方案。
③跨层特征细化:我们的 XLR 模块将特征细化技术与交叉注意策略无缝地交织在一起。这种新颖的集成方法支持跨块层的查询、键和值的动态交互
④卓越的实验性能:RTPCA 的有效性根据公认的基准进行了验证:Human3.6M、HumanEva-I 和 MPI-INF-3DHP。我们的模型不仅在性能上远远超过同时代的模型,而且还保证了计算效率。
网络框架:
TPCR:金字塔网络已经在各种任务中证明了其有效性,因为它们能够增强鲁棒性并捕获高级语义信息,同时保留低级细节。为了获得更精细的键和值表示,我们利用时间金字塔压缩和放大网络来增强块内探索。(压缩序列长度,而不是通道维度)
XLR:与之前采用简单的加法和串联进行特征聚合的 ConvNet 不同,我们提出的 XLR 模块利用相邻 STE 的两个 TPCA 模块之间的查询、键和值之间的交互。这种设计利用注意力机制,有效且自然地将特征融合扩展到变压器网络。
F是对第一个TT中的Kt-1和Vt-1进行自适应池化操作
14.3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention(CVPR 2023)
想解决的问题:
①自注意力机制中计算关节间亲和力矩阵的计算成本随着帧数的增加而呈二次方增长,使得这种解决方案对于模型训练来说不切实际。(大多数Transformer架构使用两步,首先对每一帧的空间信息编码,然后通过时间transformer聚集这些特征序列)
②注意,图中我们以空间变换器作为帧编码器为例。该策略基本上挖掘帧级特征之间的相关性,但很少探索不同帧之间的关节之间的关系。
解决方法:
①STC (Spatio-Temporal Criss-cross attention)首先将输入的联合特征相对于通道维度均匀地分割成两个分区。在每个分区上,实现多头自注意力(MSA)以沿空间或时间轴封装上下文。在这两者之间,空间路径独立地计算每个帧中关节之间的亲和力,而时间路径将跨不同帧移动的相同关节(即轨迹)关联起来。然后,STC 重新组合从两条路径学习到的上下文,并通过多层感知器 (MLP) 跨通道混合信息。
②此外,我们在姿态估计的背景下深入研究了 STCFormer 中位置嵌入的关键设计。观察到同一身体部位的关节要么高度相关(静态部分),要么不相关但包含移动模式(动态部分),这促使我们设计一种新的结构增强位置嵌入(SPE)。 SPE 由两个嵌入函数组成,分别用于静态和动态部分。部分感知嵌入是通过指示每个关节属于哪个部分来描述静态部分,而围绕相邻关节的时空卷积旨在捕获局部窗口中的动态结构。
贡献:
①首先,STC 是一种新型的分解时空注意力模型,用于以经济有效的方式进行 3D 人体姿态估计。
②其次,STCFormer 是一种新颖的变压器架构,通过堆叠多个 STC 块并集成结构增强的位置嵌入来实现。
③在 Human3.6M 和 MPI-INF-3DHP 数据集上进行的大量实验表明,参数少得多的 STCFormer 可以实现比最先进技术更优越的性能
网络框架:
STC:受到group contextualization strategy的启发,该策略将通道分成几个并行的组并分别对其应用不同的特征上下文化操作,我们建议并行捕获不同通道上的空间和时间上下文。首先对输入的X∈RT*N*C首先映射到Q、K、V∈RT*N*C,然后沿着通道维度分为两组,记为{QT、KT、VT}和{QS、KS、VS},接下来,在两个单独的自注意力模块中计算时间和空间相关性。
Structure-enhanced Positional Embedding:对于static part(0、3、4),这些关节的轨迹是高度相关的,对于dynamic part(1、2),这些关节的轨迹是不相关的。简单地为这些关节分配相同的嵌入向量会忽略动态部分的运动模式。因此,我们建议利用相邻关节周围的时空卷积来捕获局部结构。给定V∈RT*N*C/2,我们将 V 视为 2D(即空间和时间)特征图 ,并在相邻关节上利用 2D 卷积:,SPE1用来指定关节属于哪一组。
15.HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose Estimation(2023)
想解决的问题:
①从单个图像直接推断 3D 姿态是一个具有挑战性的不适定问题,因为部分 3D 信息在 3D到2D的投影中丢失
②PoseFormer 、MHformer和 P-STMO 仅考虑 SC(Spatial Correlation) 和 PTC(Pose-level Temporal Correlation), MixSTE 仅考虑SC和JTC(Joint-level Temporal Correlation)。上述基于 Transformer 的 SOTA 方法侧重于空间细微差别,因此暂时缺乏从局部关节到全局姿势的系统信息传播。
解决方法:
①通过首先将人类图像序列转换为 2D 姿势序列,视频中的 3D HPE 可以缓解从 2D 对应序列推断 3D 姿势序列的问题。
②我们发现,FPN(Feature Pyramid Network) 和 PVT(Pyramid Vision Transformer) 都采用分层和系统的金字塔结构,通过更好的信息传播和更好的任务结果来改进它们的前辈。受上述方法的启发,我们提出了一种基于时空变换器的新颖框架,该框架利用了姿势的分层自下而上结构。首先,联合序列独立地通过时间转换器。然后,关节序列的输出被聚合成为身体部位序列,并通过不同身体部位的时间转换器。这些输出再次聚合,成为姿势序列,作为姿势时间变换器的输入。最后,融合关节、零件和姿态变换器的所有输出,以自适应地集成多级互补信息以进行 3D 姿态估计。这种分层的自下而上的方法使我们能够利用人体姿势的结构性质并在local和global范围内提取有价值的信息。
贡献:
①提出了一种基于变压器的新颖框架,即hierarchical spatial-temporal transformers(HSTFormer),以自下而上的方式在结构上对多个级别的关节时空相关性进行建模。它能够平稳有效地传播关节的运动信息。这样的框架能够按照 2D 到 3D 提升管道准确估计简单和复杂场景中的 3D 人体姿势。
②提出了一种身体部位时间变换器编码器来解决跨帧的分组关节相关性。据我们所知,这是 3D 姿态估计中第一个使用 Transformer 关注跨时间领域分组关节相关性的研究。所提出的设计仅将 MPJPE 误差减少了 4.7 毫米 (11.8%)。
③在 Human3.6M、MPI-INF3DHP 和 HumanEva 数据集上进行了大量实验,以证明所提出的 HSTFormer 用于 3D 人体姿态估计的卓越性能和高泛化能力。具体来说,它在具有挑战性的 MPI-INF-3DHP 数据集上明显优于现有的 SOTA 方法,将 MPJPE 减少了 24.6%(从 54.9 mm 到 41.4 mm)。
网络框架:
fusion module:在上述四个 TE 之后是一个融合层,它收集这些编码器的输出并创建最终特征,然后将其发送到回归头以进行 3D 姿态预测。这些 TE 的输出捕获从输入 2D 姿态序列中提取的空间和时间信息的不同粒度级别。为了充分利用他们的补充信息,一个融合模块设计用于自适应集成所有四个编码器的输出,它只是通过具有可学习权重 WF ∈ R4D×D 的全连接前馈网络来实现。