【论文学习】圆柱坐标:A New Representation of Skeleton Sequences for 3D Action Recognition

该研究提出了3D动作识别的新方法,将骨架序列转换为圆柱坐标片段,利用深度CNN学习骨架序列的长期时间信息。通过多任务学习网络(MTLN),结合不同片段的空间结构信息进行动作识别,实验表明这种方法优于传统方法。
摘要由CSDN通过智能技术生成

A New Representation of Skeleton Sequences for 3D Action Recognition

CVPR2017

3D动作识别的骨架序列的新表示


提出一种通过骨骼序列(即人体骨骼关节的3D轨迹)进行3D动作识别的新方法——

  1. 首先将每个骨架序列转换为三个片段,每个片段由数个帧组成,用于使用深度神经网络进行空间时态特征学习。
    • 每个片段都是从骨架序列的圆柱坐标的一个通道生成的。
    • 生成的片段的每一帧表示整个骨骼序列的时间信息,并在关节之间合并了一种特定的空间关系。
    • 整个片段包括具有不同空间关系的多个帧,这些帧提供了人体骨骼的有用空间结构信息。
  2. 使用深度卷积神经网络从生成的片段的帧中学习骨架序列的长期时间信息,然后使用多任务学习网络Multi-Task Learning Network (MTLN)来并行处理并行生成的片段的所有帧合并空间结构信息以进行动作识别。

对于每个骨架序列,生成对应于骨架序列的圆柱坐标的三个通道的三个片段。每个片段包含四个框架,这些框架是通过计算关节相对于四个参考关节的相对位置而生成的。使用生成的片段,可以通过使用深度CNN处理生成的片段的帧图像来有效地学习骨架序列的长期时间结构,并且包括关节之间的一种特定的空间关系。整个片段聚合了具有不同空间关系的多个帧,从而提供了骨骼关节空间结构的重要信息。

在这里插入图片描述

通过从所生成的片段的帧中提取特征来学习骨架序列的长期时间结构——将所生成的片段的每个帧馈送到深度CNN以提取CNN特征。然后将三个片段在同一时间步的三个CNN特征串联到一个特征向量中。因此,从所有时间步中提取了四个特征向量。每个特征向量表示骨骼序列的时间信息以及关节之间的一种特定空间关系。不同时间步长的特征向量表示不同的空间关系,它们之间具有内在关系。

多任务学习网络(MTLN)利用不同特征向量之间的内在关系进行动作识别——多任务学习旨在通过联合训练多个相关任务并利用它们的内在关系来提高泛化性能。在提出的MTLN中,每个特征向量的分类被视为一个单独的任务,并且MTLN共同从一个特征向量中学习多个分类器,并输出多个预测,每个预测对应一个任务。相同骨架序列的所有特征向量都具有与骨架序列相同的标记。在训练过程中,每个任务的损失值都是使用其自己的类得分单独计算的。然后,将所有任务的损耗值相加,以定义网络的总损耗,然后将其用于学习网络参数。在测试过程中,将所有任务的得分平均,以形成行动的最终预测。多任务学习可以通过权重共享同时解决多个任务,从而可以提高单个任务的性能。

  1. 将每个骨架序列转换为新的表示形式,即三个片段,以允许通过使用深度CNN从帧图像中学习层次特征来对骨架序列进行全局长期时间建模。
  2. 文章引入了MTLN来处理生成的片段中帧的所有CNN特征,从而了解骨架序列的空间结构和时间信息。MTLN通过利用生成的片段的不同帧之间的固有关系来提高性能。实验结果表明,MTLN的性能优于连接或合并帧的特征。

Method:

从生成骨架序列的片段开始,任何长度的骨架序列都将转换为三个片段,每个片段都包含几个灰度图像。然后将生成的片段输入到深层CNN模型中,以提取在MTLN中用于动作识别的CNN特征。

  1. Clip Generation

将原始骨架序列转换为片段的集合,每个片段由几张图像组成,从而允许使用深度神经网络学习空间时态特征。——可以将骨架序列每一帧的内容表示为一幅图像,以生成视频。但是如果骨架序列具有许多帧,则此方法将导致产生较长的视频,其时间动态特性将很难学习。另外,每一帧的生成由于骨骼关节的数量很少,因此视频也将非常稀疏。为了克服这个问题,在帧图像中表示骨架序列的时间动态,然后使用多个帧合并关节之间的不同空间关系。该方法的优点是,对于任何长度的任何骨架序列,生成的片段都包含相同数量的帧,并且可以使用帧图像中强大的CNN表示有效地捕获原始骨架序列的长期时间信息。

在这里插入图片描述

对于骨架序列,首先将各个身体部位的关节连接起来,将每个骨架的骨架关节布置成一条链。考虑到关节之间的相对位置比其绝对位置(例如,“推”中手与肩膀的相对位置”)提供了更多有用的信息,因此有四个参考关节,即左肩,右肩,左髋和右髋分别用于计算其他关节的相对位置,从而合并关节之间的不同空间关系,并提供有用的骨骼结构信息。由于这四个关节在大多数动作中都是稳定的,因此将其选择为参考关节,因此它们可以反映其他关节的运动。通过组合所有帧的相对关节,生成尺寸为(m-1)×t的四个2D数组(m是每个帧中的骨架关节数,t是骨架序列的帧数)。最初使用3D笛卡尔坐标描述2D阵列中关节的相对位置。考虑到圆柱坐标在每个人体利用枢轴关节运动执行动作时更有助于分析运动,因此在提出的骨架序列表示中将3D笛卡尔坐标转换为圆柱坐标。圆柱坐标已被用于提取视不变运动特征以进行动作识别。通过使用线性变换将坐标值缩放在0到255之间,将与3D圆柱坐标的相同通道相对应的四个2D数组变换为四个灰度图像。然后使用四个灰度图像构造一个片段。因此,从四个2D阵列的3D坐标的三个通道生成了三个片段。

  1. Clip Learning

生成的片段的每一帧描述了骨架序列的所有帧的时间动态以及圆柱坐标的一个通道中骨架关节之间的一种特定空间关系。生成的片段的不同帧描述了不同的空间关系,并且它们之间存在固有关系。首先利用深度CNN从生成的片段的每个帧中提取紧凑表示,以利用骨架序列的长期时间信息。然后,使用多任务学习对生成的片段的所有帧的CNN特征进行并行并行处理,从而利用其固有的创造力来学习时空信息以进行3D动作识别。

temporal pooling of CNN feature maps

首先使用深度CNN提取剪辑的每个帧的紧凑表示。由于每个帧描述了骨架序列的时间动态,因此每个帧的空间不变CNN特征可以表示骨架序列的鲁棒的时间信息。

给定生成的片段,使用预训练的VGG19模型提取每个帧的CNN特征。由于使用ImageNet进行预训练的模型提取的CNN特征非常强大,并且已成功应用于许多跨域应用程序中,因此,将预训练的CNN模型用作特征提取器。此外,当前的骨架数据集太小或太嘈杂,无法适当地训练深度网络。尽管生成的剪辑的帧不是自然图像,但仍可以将它们输入经过ImageNet预训练的CNN模型中进行特征提取。自然图像和生成的帧之间的相似之处在于它们都是具有某些模式的矩阵。在大图像数据集上训练的CNN模型可以用作特征提取器,以提取矩阵中模式的表示形式。学习的表示形式是通用的,可以从原始任务转移到新任务。

第k个特征图的输出 y k = [ y 1 k , ⋅ ⋅ ⋅ , y j k , ⋅ ⋅ ⋅ , y 14 k ] , y j k = 1 14 ∑ i = 1 14 m a x ( 0 , x i , j k ) {\bf y^k}=[y_1^k,···,y_j^k,···,y_{14}^k],y_j^k=\frac{1}{14}\sum_{i=1}^{14}{\rm max}(0,x_{i,j}^k) yk=[y1k,,y<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值