论文阅读-PA3D

码啥码

已于 2023-01-04 11:22:30 修改

阅读量334

点赞数

分类专栏：读论文文章标签：论文阅读 3d 深度学习

于 2022-11-25 20:13:52 首次发布

本文链接：https://blog.csdn.net/qq_43894221/article/details/127959023

版权

7 篇文章 0 订阅

订阅专栏

背景

然而，现有的大多数方法主要建立在两种输入类型上，即RGB和光流。这忽略了另一个辨别动作线索，即人体姿势动态。

解决的问题

PA3D是一个简洁的3D CNN框架，它可以在多层次的方式下分解语义任务(semantic task姿势/动作)、卷积运算convolution operate(空间/时间)、姿态模态pose modality(关节/部位亲和场/卷积特征)来达到学习效率。在这种情况下，PA3D可以灵活地编码各种姿态动态作为判别线索对复杂动作进行分类。
提出了一种新的时域位姿卷积算法（temporal pose convolution operation），该算法主要由时间关联（temporal pose）和语义卷积（semantic convolution）两部分组成，对姿势动作进行编码。与传统三维cnn中的时间卷积不同，我们的时域位姿卷积可以学习一个时空语义（spatio-temporal）表示来明确描述姿态运动。
此外，我们的时间扩张设计（temporal dilation）允许该卷积捕获复杂的动作与多尺度姿态动力学（multi-scale pose dynamics）。
它是双流3D cnn(如I3D)的高度补充，在双流3D cnn中，评分融合可在所有评估数据集上获得最先进的性能。因此，我们的PA3D可以用作人类动作识别的另一个语义流。

空间姿态CNN（Spational Pose CNN）：空间姿态CNN可以为每个采样视频帧稳健地提取不同形式的姿态热图(即关节、部分亲和场和卷积特征)[1]
时间姿态卷积（Temporal Pose CNN）：时间位姿卷积可以自适应聚合帧上的空间位姿热图，为每个位姿模态生成一个时空位姿表示
动作CNN（Action CNN）：最后，action CNN将学习到的姿势表示作为输入来识别人类动作。由于PA3D是建立在一个简洁的时空三维框架之上的，它可以作为视频动作识别的另一种语义流。

每个视频帧输入到这个Spational Pose CNN,提取三种姿势形态，

输入图像shape:(H*W)
经过此模块得到联合热图：
$J_t \in R^{C*H*W}$ ,
它表示t时刻视频帧的联合热图，由C张热图组成，大小为H × W，其中C为人体关节的数量。

在获得每个帧的空间位姿热图(例如Jt)后，我们提出了一种新的时间位姿卷积来编码帧上的位姿动态。如图2所示，它主要包括两个原子操作，即时间关联和语义卷积

时序关联(Temporal Association):
对于每个关节，我们首先将所有帧的热图按时间顺序堆叠起来。该操作可以为第c个关节生成一个时间相关的立方体，即 $\tilde{J}_c∈R^{T ×H×W}$ ，其中， $\tilde{J}$ 的第t个通道指的是第c个关节在第t个时间的热图。
语义卷积（Semantic Convolution）：在获得第c个关节的临时相关立方体在获得第c个关节的临时相关立方体 $\tilde{J}_c$ 之后，我们将其编码到帧上的时空姿势表示。正如前面所提到的， $\tilde{J}$ 的通道对应于第c个关节的时序热图。在本例中，我们直接对 $\tilde{J}_c$ 进行1 × 1卷积，以生成时空位姿表示 $\tilde{J}_c∈R^{N×H×W}$ 之后，我们将其编码到帧上的时空姿势表示。正如前面所提到的， $\tilde{J}_c$ 的通道对应于第c个关节的时序热图。在本例中，我们直接对 $\tilde{J}_c$ 进行1 × 1卷积，以生成时空位姿表示 $\breve{J}_c∈R^{N×H×W}$