论文翻译:Spatio-Temporal Naive-Bayes Nearest-Neighbor (ST-NBNN) for Skeleton-Based Action Recognition

       由于以前成功地使用非参数方法来识别对象,例如NBNN[2],我们将其扩展到使用骨架来识别动作。每个3D动作都是由一系列3D姿态呈现的。与NBNN相似,我们提出的时空NBNN应用阶段到类的距离来对动作进行分类。而STNBNN考虑了三维动作的时空结构,放宽了NBNN的朴素贝叶斯假设。ST-NBNN采用双线性分类器。识别动作分类的关键时间阶段和空间关节。尽管仅使用线性分类器,但在三个基准数据集上的实验表明,通过结合非参数和参数模型的优点,ST-NBNN可以获得与使用复杂模型(如深度学习)的最新结果相比具有竞争力的性能。此外,我们的ST-NBNN通过识别每个动作类别的关键骨骼关节和时间阶段,可以捕获在识别动作中起关键作用的基本时空模式,而使用端到端模型往往无法实现这一点。

介绍
        由于商品深度摄像机的发展,基于骨架的动作识别在计算机视觉界引起了相当大的关注。到目前为止,领先的3D动作分类器都是基于学习的分类器,特别是基于深度学习的方法(例如,[5,24,35,21,14,13]),它们在基准数据集中显示了有希望的结果。尽管基于学习的方法在三维动作识别中取得了很大的进步,但非参数分类器在三维动作识别中并没有得到很好的开发,非参数分类器直接根据数据进行分类决策,不需要对参数进行学习/训练。

图1所示。演示挥右手动作的关键阶段、关节和动作。

有趣的是,对于图像识别而言,非参数方法,如naivebayes最近邻(NBNN)[2],利用图像到类别的距离对局部视觉基元图像进行分类的效果令人印象深刻。受NBNN以往成功经验的激励,我们在这项工作中将其扩展为认识行动。

      两个观察激发了我们对使用的探索基于骨架的动作识别的NBNN:(1)类似于由局部视觉基元组成的图像,动作也由时空基元组成,例如,每个动作实例是骨骼姿态的集合,每个姿态进一步是空间关节的集合。我们可以很容易地应用原语到类的距离来执行动作识别,可以用NBNN来推广。(2)与由数百万或数十亿像素组成的图像和视频相比,骨骼仅由几十个关节组成,其复杂性远低于图像和视频。我们认为,与其依赖复杂的端到端模型,一个简单的非参数模型仍然可以获得这样一个轻量级问题的有希望的结果。在这项工作中,我们提出了时空贝叶斯最近邻(ST-NBNN)是NBNN的新变种,用于对三维动作进行分类。每个三维动作实例由三维组成的时间阶段集合表示,姿态,每个阶段的姿态是由空间关节的集合呈现。在NBNN之后,我们的ST-NBNN应用阶段到类的距离来对动作进行分类。它可以很好地处理3D动作的长度变化以及大型的类内变化。然而,并不是每个时间阶段和空间关节都对动作的识别具有同等的重要性。因此,识别关键阶段和关键骨骼关节对识别具有重要意义。扩展NBNN用于三维动作分类。

我们的STNBNN考虑行为的时空结构。我们没有简单地用贝叶斯假设来总结所有阶段到类的距离,而是将这些距离表示为代表动作实例的神经网络距离的时空矩阵。ST-NBNN进一步采用双线性分类器[19]来识别关键节点和阶段,并对神经网络距离的时空矩阵进行分类。我们提出的公式可以迭代优化学习的线性分类权的空间和时间阶段,我们使用图1来说明使用关键的空间关节和时间阶段进行动作识别的思想。当做右手摆动动作时,只有右手和手臂(关键关节)被激活。当观察到右手和手臂抬起并向左水平移动的时机(关键阶段)时,我们可以宣称挥动右手的动作是在表演。这种由关键时间阶段和空间节点所描述的时空模式是识别动作类的关键。这种模式的发现不仅可以提高识别的准确性,还可以回答是什么构成了这样一个动作实例,以及我们为什么要识别它。

利用阶段到类的距离和双线性分类器[19],我们提出的ST-NBNN结合了非参数模型和参数模型的优点。虽然只使用线性分类器,但在三个基准数据集上的实验表明,使用原始骨架特征的ST-NBNN已经可以获得非常有竞争力的性能,与最先进的端到端模型相比,优化特征表示。此外,通过识别对识别动作起关键作用的关键时间阶段和空间关节。我们的ST-NBNN可以捕捉每个动作类的基本时空模式,并提供动作行为的物理解释。然而,这种时空模式的发现和明确解释并不总是通过端到端模型来实现,端到端模型主要是为了获得更高的识别精度,而不是更好的解释模式。

      相关工作Skeleton-Based行动识别近年来,基于骨架的动作识别问题受到了广泛的关注,提出了许多基于学习的方法。由于由于这些工作的数量巨大,我们仅对基于骨架的动作识别的时空建模进行综述。

       空间领域的建模主要是由于一个动作通常仅由骨骼关节[35]子集的相互作用或组合来表征。对动作的空间模式建模通常采用两类方法:基于部分的模型和子位姿模型。在基于部分的模型中,一个骨架被划分为若干组,每组的关节都是相邻的骨骼。在HBRNN[5]中,骨骼被分解为五个部分,两个手臂,两条腿和一个躯干,并建立一个递归神经网络来建模这些部分之间的关系。类似地,在[21]中,我们提出了一个部分感知的LSTM来构造身体各部分之间的关系。在子位姿模型中,主要关注信息关节及其相互作用。在SMIJ[18]中,信息最丰富的关节是根据关节角度轨迹的均值或方差等度量来选择的。这些信息关节的序列被用作动作的表示。在Orderlet[33]中,关节之间的相互作用是通过比较关节的基本特征来建模的,而在动作识别中只涉及关节的一个子集。在时态领域&#

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值