论文翻译:Make Skeleton-based Action Recognition Model Smaller, Faster and Better

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功,但现有的方法大多存在模型规模大、执行速度慢的问题。为了解决这一问题,我们通过分析骨架序列的特性,提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度,在一个GPU上可以达到3500帧/秒,在一个CPU上可以达到2000帧/秒。利用鲁棒特性,DD-Net实现了最先进的性能我的介绍。基于骨架的动作识别在多媒体应用中得到了广泛的应用,如人机交互[1]、人类行为理解[2]和医学辅助应用[3]
摘要由CSDN通过智能技术生成

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功,但现有的方法大多存在模型规模大、执行速度慢的问题。
为了解决这一问题,我们通过分析骨架序列的特性,提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度,在一个GPU上可以达到3500帧/秒,在一个CPU上可以达到2000帧/秒。利用鲁棒特性,DD-Net实现了最先进的性能

我的介绍。
基于骨架的动作识别在多媒体应用中得到了广泛的应用,如人机交互[1]、人类行为理解[2]和医学辅助应用[3]。然而,现有的大多数方法都存在模型规模大,执行速度慢的问题[4],[5],[6],[7],[8]。

在实际应用中,一个理想的基于骨架的动作识别模型应该通过使用一些参数有效地运行,并且也能适应各种应用场景(例如,手/身体,2D/3D骨架,以及与全局轨迹相关或不相关的动作)。为了实现这一目标,我们研究了骨架序列的属性,提出了一个轻量级的双特征双运动网络(DDNet),它配备了一个联合收集距离(JCD)特征和双尺度全局运动特征。更具体地说,我们对四种骨架序列性质进行了研究。

相比之下,我们通过简化输入特性和网络结构来解决这些挑战。我们的JCD特征包含了骨架序列的位置-视点不变信息。与其它类似特征相比,它计算简单,包含的元素较少。由于全局运动不能纳入位置视点不变特征,我们引入了两尺度的全局运动特征来提高DD-Net的泛化。此外,该算法的双尺度结构使其对运动尺度方差具有较强的鲁棒性。通过嵌入过程,DD-Net可以实现。自动学习关节的相关性,这是很难用关节指标预定义的。与依赖复杂模型结构的方法相比,DD-Net提供了更高的动作识别精度,并在我们的经验数据集上证明了它的泛化性。DD-Net在计算复杂度和参数数目方面的效率足以应用于实际应用中

相关的工作
如今,随着深度学习的快速发展,骨骼的获取已经不仅仅局限于运动捕捉系统[10]和深度摄像机[11]。例如,RGB数据可以用来推断2D骨架[12]、[13]或实时三维骨架[14],[15]。甚至可以利用WiFi信号来估计骨架数据[16]、[17]。这些成就使得基于骨架的动作识别在大量的多媒体资源上可用,从而促进了模型的发展。总的来说,为了实现更好的skel性能。一个好的骨架序列表示应该包含全局运动信息并具有位置-视点不变性。然而,在一个特性中同时满足这两个需求是很有挑战性的。对[19]、[21]、[8]、[23]的研究主要集中在全局运动上,没有考虑其特征中的位置-视点变化。其他研究[18]、[20]、[22]则相反,在不考虑全局运动的情况下,引入了位置-视点不变特征。我们的工作通过无缝集成位置-视点不变特征和双尺度全球运动特征来弥补两者之间的差距虽然递归神经网络(RNNs)在基于骨架的动作识别中常用我们认为它对于并行计算来说相对缓慢和困难,与[24]方法相比,使用卷积神经网络(CNNs)。由于我们将模型的速度作为优先考虑的因素之一,我们利用一维CNNs来构建DDNet的主干网络,双特征双运动的网络结构网络(DD-Net)如图2所示。下面,我们将解释设计DD-Ne

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition" 是一篇关于基于骨架的动作识别的论文。如果要提出改进方法,可以考虑以下几个方向: 1. 模型结构改进:可以尝试改进论文中提出的Channel-wise Topology Refinement Graph Convolution模块。例如,可以探索更复杂的图卷积模型结构,引入更多的注意力机制或者跨层连接,以提高模型对骨架数据的建模能力。 2. 数据增强和预处理:骨架数据可能存在缺失或者噪声,可以尝试使用数据增强技术(如旋转、平移、缩放)来增加数据的多样性和鲁棒性,或者使用预处理技术(如滤波、插值)来处理数据中的噪声和缺失。 3. 图结构优化:可以尝试优化骨架数据的图结构表示。例如,可以使用图剪枝算法来去除冗余的边或节点,或者使用图生成算法来自动构建更准确的图结构。 4. 跨模态信息融合:可以考虑将骨架数据与其他传感器数据(如深度图像或RGB图像)进行融合。通过融合不同模态的信息,可以提高对动作的理解和识别能力。 5. 模型训练优化:可以探索更有效的模型训练方法,例如引入更合适的损失函数或者优化算法。此外,可以尝试使用迁移学习或领域自适应的方法,将从其他相关任务或领域中学到的知识迁移到骨架动作识别任务中。 以上是一些可能的改进方向,具体的改进方法需要根据具体问题和实验结果来确定。同时,也可以参考相关领域的最新研究和技术进展,以获取更多的启发和创新点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值