论文翻译：Make Skeleton-based Action Recognition Model Smaller, Faster and Better

最新推荐文章于 2024-05-28 09:55:47 发布

王壹浪

最新推荐文章于 2024-05-28 09:55:47 发布

阅读量831

点赞数 1

分类专栏：心得人工智能文章标签：神经网络算法计算机视觉机器学习

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107455586

版权

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功，但现有的方法大多存在模型规模大、执行速度慢的问题。为了解决这一问题，我们通过分析骨架序列的特性，提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度，在一个GPU上可以达到3500帧/秒，在一个CPU上可以达到2000帧/秒。利用鲁棒特性，DD-Net实现了最先进的性能我的介绍。基于骨架的动作识别在多媒体应用中得到了广泛的应用，如人机交互[1]、人类行为理解[2]和医学辅助应用[3]

摘要由CSDN通过智能技术生成

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功，但现有的方法大多存在模型规模大、执行速度慢的问题。
为了解决这一问题，我们通过分析骨架序列的特性，提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度，在一个GPU上可以达到3500帧/秒，在一个CPU上可以达到2000帧/秒。利用鲁棒特性，DD-Net实现了最先进的性能

我的介绍。
基于骨架的动作识别在多媒体应用中得到了广泛的应用，如人机交互[1]、人类行为理解[2]和医学辅助应用[3]。然而，现有的大多数方法都存在模型规模大，执行速度慢的问题[4]，[5]，[6]，[7]，[8]。

在实际应用中，一个理想的基于骨架的动作识别模型应该通过使用一些参数有效地运行，并且也能适应各种应用场景(例如，手/身体，2D/3D骨架，以及与全局轨迹相关或不相关的动作)。为了实现这一目标，我们研究了骨架序列的属性，提出了一个轻量级的双特征双运动网络(DDNet)，它配备了一个联合收集距离(JCD)特征和双尺度全局运动特征。更具体地说，我们对四种骨架序列性质进行了研究。

相比之下，我们通过简化输入特性和网络结构来解决这些挑战。我们的JCD特征包含了骨架序列的位置-视点不变信息。与其它类似特征相比，它计算简单，包含的元素较少。由于全局运动不能纳入位置视点不变特征，我们引入了两尺度的全局运动特征来提高DD-Net的泛化。此外，该算法的双尺度结构使其对运动尺度方差具有较强的鲁棒性。通过嵌入过程，DD-Net可以实现。自动学习关节的相关性，这是很难用关节指标预定义的。与依赖复杂模型结构的方法相比，DD-Net提供了更高的动作识别精度，并在我们的经验数据集上证明了它的泛化性。DD-Net在计算复杂度和参数数目方面的效率足以应用于实际应用中

相关的工作
如今，随着深度学习的快速发展，骨骼的获取已经不仅仅局限于运动捕捉系统[10]和深度摄像机[11]。例如，RGB数据可以用来推断2D骨架[12]、[13]或实时三维骨架[14]，[15]。甚至可以利用WiFi信号来估计骨架数据[16]、[17]。这些成就使得基于骨架的动作识别在大量的多媒体资源上可用，从而促进了模型的发展。总的来说，为了实现更好的skel性能。一个好的骨架序列表示应该包含全局运动信息并具有位置-视点不变性。然而，在一个特性中同时满足这两个需求是很有挑战性的。对[19]、[21]、[8]、[23]的研究主要集中在全局运动上，没有考虑其特征中的位置-视点变化。其他研究[18]、[20]、[22]则相反，在不考虑全局运动的情况下，引入了位置-视点不变特征。我们的工作通过无缝集成位置-视点不变特征和双尺度全球运动特征来弥补两者之间的差距虽然递归神经网络(RNNs)在基于骨架的动作识别中常用我们认为它对于并行计算来说相对缓慢和困难，与[24]方法相比，使用卷积神经网络(CNNs)。由于我们将模型的速度作为优先考虑的因素之一，我们利用一维CNNs来构建DDNet的主干网络，双特征双运动的网络结构网络(DD-Net)如图2所示。下面，我们将解释设计DD-Ne

最低0.47元/天解锁文章

王壹浪

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Make Skeleton-based Action Recognition Model Smaller, Faster and Better

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功，但现有的方法大多存在模型规模大、执行速度慢的问题。为了解决这一问题，我们通过分析骨架序列的特性，提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度，在一个GPU上可以达到3500帧/秒，在一个CPU上可以达到2000帧/秒。利用鲁棒特性，DD-Net实现了最先进的性能我的介绍。基于骨架的动作识别在多媒体应用中得到了广泛的应用，如人机交互[1]、人类行为理解[2]和医学辅助应用[3]
复制链接

扫一扫

专栏目录