每周论文精读04——A Survey on 3D Hand Pose Estimation: Cameras, Methods, and Datasets

最新推荐文章于 2024-02-13 00:07:19 发布

Jason_____Wang

最新推荐文章于 2024-02-13 00:07:19 发布

阅读量5.2k

点赞数 2

分类专栏：精读笔记文章标签：计算机视觉手势识别深度学习

本文链接：https://blog.csdn.net/Jason_____Wang/article/details/115161836

版权

论文精读——A Survey on 3D Hand Pose Estimation: Cameras, Methods, and Datasets

本周所进行精读的一篇文章是手势估计领域的一篇综述文章，由浙江大学撰写与2019年发表在PR期刊上，篇幅较长，内容丰富，比较详细的综述了自2010年Kitnet 问世以来对于手势估计的应用与研究。

废话不多说，进入正文部分了：
#############################################################################

文章来源

题目：A Survey on 3D Hand Pose Estimation: Cameras, Methods, and Datasets

三维手位估计综述：摄像机、方法和数据集
引用：[1] Li R , Liu Z , Tan J . A Survey on 3D Hand Pose Estimation: Cameras, Methods, and Datasets[J]. Pattern Recognition, 2019.

链接&下载地址：

百度学术：https://xueshu.baidu.com/usercenter/paper/show?paperid=1w240j20b5230420kw580er0pf775254&site=xueshu_se
下载地址：https://www.sciencedirect.com/science/article/pii/S0031320319301724
论文我也已经下载好上传到了CSDN中，可以点下方直接下载：
》》》论文连接《《《
一些相关连接
开源代码：
性能比较（paper with code）：

文章简介

内容简介：
A Survey on 3D Hand Pose Estimation: Cameras, Methods, and Datasets

三维手位估计综述：摄像机、方法和数据集

3D Hand pose estimation has received an increasing amount of attention, especially since consumer depth cameras came onto the market in 2010. Although substantial progress has occurred recently, no overview has kept up with the latest developments. To bridge the gap, we provide a comprehensive survey, including depth cameras, hand pose estimation methods, and public benchmark datasets. First, a markerless approach is proposed to evaluate the tracking accuracy of depth cameras with the aid of a numerical control linear motion guide. Traditional approaches focus only on static characteristics. The evaluation of dynamic tracking capability has been long neglected. Second, we summarize the state-of-the-art methods and analyze the lines of research. Third, existing benchmark datasets and evaluation criteria are identified to provide further insight into the field of hand pose estimation. In addition, realistic challenges, recent trends, dataset creation and annotation, and open problems for future research directions are also discussed.

三维手姿势估计已经受到越来越多的关注，特别是自从消费者深度相机在2010年上市以来。虽然最近取得了实质性进展，但没有任何概览跟上最新的发展。为了弥补这一差距，我们提供了一个全面的调查，包括深度相机，手姿势估计方法，和公共基准数据集。首先，提出了一种基于数控直线运动导轨的无标记深度相机跟踪精度评估方法。传统的方法只关注静态特性。长期以来，动态跟踪能力的评估一直被忽视。其次，总结了国内外的研究方法，分析了本文的研究思路。第三，现有的基准数据集和评估标准，以提供进一步的洞察领域的手姿势估计。此外，还讨论了数据集的创建和注释的现实挑战、最新发展趋势以及有待进一步研究的问题。
（上面的仅是摘要与摘要翻译）

主要贡献&创新点

综述了基于RGB-D图像的手部姿态估计问题，系统的论述了数据集、相机、方法（算法）。
提出了一种深度相机动态跟踪精度评估方法，并进行了实验与评估

阅读印象&感想

事实上手部姿态检测问题不纯是由深度学习方法进行估计的，甚至还有一些基于模型的启发式优化算法，而针对二者优点相结合的算法也存在，如上上周精读的文献 DETnet+IKnet 就是一个比较典型的例子。
和PSO等启发式算法不同的是，这些算法是非数据依赖的，而深度学习方法是非常依赖于数据的，这个以来不仅体现在数据的需求量上，也体现在数据的真实性方面。
事实上基于计算机视觉的手势估计方面的研究分类较细，需要做到什么要求以及需要达到何种特征需要视情况而定。结合具体的项目要求去选取以及使用，不应该盲目的去选择。

关键点记录

正文部分.
########################################

1. 引言部分

从无标记的视觉观测中估计手的姿势是一个有趣的研究课题，因为人类可以毫不费力地解决这个问题。从面向应用的角度来看，手势估计有望实现基于非接触手势的人机交互，因此对于沉浸式虚拟现实（VR）和增强现实（AR）具有非常重要的实际意义。手姿势估计已应用于手势识别[3]、交互式游戏[4–7]、用户界面控制[8–11]、计算机辅助设计（CAD）[12]、手形个性化[13–16]、手语[17–19]、空中交互[20–22]、动作识别[23,24118159]，它在其他领域也有巨大的应用潜力，如机器人抓取[25–28185]。近年来，商业深度相机（如Kinect）极大地推动了基于深度图的手部姿态估计的研究。虽然进行了大量的工作，但最近没有进行全面的调查。据我们所知，当前出版物中最具参考价值的基于视觉的调查是由Erol等人[29]在2007年提出的，但自那时以来，手姿势估计领域发展迅速。

我们工作的另一个动机是，研究人员不太重视对于深度相机的研究。现有的基准数据集是使用各种摄像机发布的，但摄像机的动态跟踪精度一直没有得到仔细的研究。

与人体姿态估计不同，手部姿态估计的精度要求相对较高。相机制造商提供的技术规范无法充分支持手姿势估计研究。传统的方法只能测量摄像机的静态精度。明确动态跟踪精度不仅有助于重新评估现有的手位估计方法，而且为发布新的基准数据集提供有价值的指导。为此，我们设计了一种动态跟踪精度的实验装置。鉴于上述事实，我们认为现在是对手姿势估计再次进行深入综述的时候了。

1.1 相关工作 Related work

2007年，Erol等人[29]提出了一个基于视觉的手姿势估计综述，涵盖了所涉及的挑战、手建模、各种方法的优缺点以及未来研究的潜在问题。这篇综述是对以往研究进行比较全面、深入总结的一篇罕见的著作。在回顾中提到的33种方法中，只有4种方法使用了深度相机。因为当时深度相机和基于深度的手姿势估计研究并不流行，所以深度相机、基准数据集或评估标准没有在综述中提及。

我们的研究范围和方法与Erol等人的研究方法有很大的不同。我们专注于2010年之后提出的基于深度或RGB-d的手姿势估计方法；我们排除了早期的方法，因为随着Kinect v1的出现，深度相机在2010年真正吸引了研究人员的注意力，这是一个里程碑。在我们的调查中，以表格的形式总结了101个最先进的方法和22个数据集。在方法上，分析了研究思路和建模方案。对于数据集，我们分析了创建方法、注释技术和定量评估指标。不像一般的综述只关注理论总结，我们还进行了一系列的实验设计仪器。

Barsoum[32]在近几年回顾总结了三个基准数据集和不到二十种方法。只有两种方法是在深度学习的框架下构建的。Barsoum因此得出结论，由于注释数据集的数量较少，深度学习并没有像其他计算机视觉任务那样广泛地应用于手姿势估计。我们持有相反的观点，即当前的建模解决方案已经被深度学习所主导，尽管距离Barsoum的重新审视只有大约三年的时间。从数据集和方法的完整性来看，我们的综述远比Barsoum提出的观点更具包容性和全面性，因此我们认为我们的结论更有分量。

除了Erol等人[29]和Bar-soum[32]给出的两个综述外，我们还没有发现其他的手姿势估计综述。一些研究人员[30–31，151]对手姿势估计方法或/和数据集的总结非常有限。严格地说，这样的作品不能算是一种总结与综述。Supancic等人[30]在统一评分标准下对13种手姿势估计方法进行了评价，并总结了9个基准数据集。他们引入了一个新的基准数据集，并提出了一种最近邻基线方法。他们的工作目标之一是强调训练数据的重要性。

袁等[31]在3个任务中研究了11种手姿势估计方法：单帧手姿势估计、手跟踪和目标交互过程中的手姿势估计。他们努力回答两个问题：三维手姿势估计的现状如何？接下来需要应对的挑战是什么？袁等[151]介绍了一个大规模的基准数据集，并总结了现有的十个基准数据集。他们使用多个数据集训练了一个CNN（卷积神经网络），以研究交叉基准性能，并用八种最先进的方法训练了CNN。

一些研究调查了手姿势估计的准备工作与相关工作。如S：ridhar等人[22]系统地研究了使用多个手指进行空中文本输入的灵活性。他们报告了每个手指的速度、准确性、个性化、运动范围和个体差异。Gustus等人[169]概述了在运动学、mus-culotendon结构以及两者结合的层面上的数学手建模。Wheatland等人[170]回顾了手和手指建模和动画领域的研究。详细讨论了手的生物结构及其对手运动的影响。这些研究为研究手部姿势的交互能力提供了有价值的参考，在许多方面与我们的研究是相辅相成的。

1.2. 问题表述 Problem formulation

在大多数情况下，从深度或RGB-D估计三维手姿势的任务是提取一组预定义的手关节位置。具体来说，输入是包含人手的深度或RGB-D数据，输出是k3d手关节位置。设K个手关节的位置为={φK}kk=1∈，其中φK=（xk，yk，zk），是3×K维手位空间。图1a示出了合成手骨架。忽略关节角度约束，手有25–50个自由度（DoF）[29]。图1b显示了一个具有26个自由度的典型手运动学模型[33–35]，其中手指骨骼在力学中被视为连杆，手关节被视为运动副。图1c中示出了21个手关节和连接结构的示例。对于不同的方法，手关节的位置和数量可能不同。

在这里插入图片描述
图1.手部模型：（a）合成手骨架（b） 26自由度运动学模型（c）手关节及连接结构

一些方法，例如Sinha等人[34]、Choi等人[120]和Zhou等人[46]提出的方法，通过关节角度（包括横摇、俯仰和偏航角）来描述手的姿势。关节角度表示法的优点是更容易考虑手指运动的严格约束。缺点是关节角度表示不能直接与源深度贴图连接。

一些方法以网格[5]或几何元素[84–85,96]的形式估计手的姿势。这些方法完成的任务与通过关节角度或关节位置描述手姿势的方法相同，因此可以与基于关节角度或关节位置的方法进行比较[5151]；例如, Yuan等人[151]在同一基准数据集上评估了Oikonomidis等人[84]提出的基于几何元素的方法和Ye等人[139]提出的基于联合位置的方法。

基于深度的手姿估计方法有两种。第一种方法只对深度序列进行操作，因为它依赖于帧顺序或时间一致性[5,96,99]。**第二种方法可以处理单个深度图[135163165]。如果计算效率足够高，第二类方法自然也可以应用于深度序列。然而，由于完全忽略了帧的阶数，估计的邻域姿态的平滑性可能无法得到保证。**此外，当前大多数方法适用于深度相机固定的情况，但也存在基于自我中心视点的手姿势估计[9102113]。

有六个跟手姿势估计相近相关的研究领域，图2提供了直观的图像比较。手势识别的目的是对一组离散的手势进行分类，这有时与手势估计有关，例如[3]中提出的手势估计方法就是针对手势识别的。但手势识别不一定依赖于手的姿势估计；例如，Chen等人[36]提出的手势识别方法就是一个例子。学者们目前已经对手势识别进行了深入的研究。因此纯手势识别方法被排除在我们的综述之外。

在这里插入图片描述