Learning to Estimate 3D Hand Pose from Single RGB Images

最新推荐文章于 2022-12-27 10:41:00 发布

王白一

最新推荐文章于 2022-12-27 10:41:00 发布

阅读量522

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_61945533/article/details/123895538

版权

本文提出了一种创新方法，首次实现仅依赖单个RGB图像进行手部3D手势估计，解决了传统方法中多传感器限制和自我遮挡的问题。通过HandSegNet、PoseNet和PosePrior三个网络，从分割、2D关键点定位到3D姿态预测，实现了高效的手势识别。实验在STB和Dexter数据集上进行，证明了网络能从2D关键点预测合理的3D手势，尽管性能仍有提升空间，主要受限于缺乏大规模真实世界数据集。

摘要由CSDN通过智能技术生成

一、研究的背景和意义

手是人类的主要操作工具。手在空间中的位置，方向和关节对于许多潜在的应用至关重要，例如：机器人中的对象切换，演示学习，手语识别和手势识别，以及将手作为人机交互的输入设备。
单个图像的整个手的3D手势估计很困难，因为有很多含糊不清的关节点和严重的自我遮挡。因此，使用特定的传感设备，如数据手套或标记，这将应用限制在有限的情况下。此外，多台摄像机的使用严重限制了应用范围。而且，深度相机并不像普通彩色相机那样容易使用，它们只能在室内环境工作。
本文的主要贡献：
1.首次实现依靠单个RGB图像预测3D手势；
2.提出一个人工合成的数据集；
3.使用深度网络学习先验知识，有效处理手势模糊和遮挡问题

二、网络结构

在这里插入图片描述
这张图是总体的网络结构，本文的网络结构是由三个网络组成，
1）HandSegNet（分割网络）：第一个网络提供了一个手部分割来定位图像中的手。输入256x256x3图像, 输出256x256x1，分割之后的结果用来对手附近区域进行截图，以减少计算量及提高准确性。
2）PoseNet：第二个网络在2D图像中定位手的关键点，输出各关键点的评分图，计算手的21个关键点，输入256x256x3，输出32x32x21，得到21张不同关键点的评分图。
第1、2个网络通过卷积图层表达纹理信息和空间信息，提取出手的位置。由于手势比较小，因此对手的位置进行裁剪成为第二个网络的输入。
3）PosePrior：第三个网络从二维关键点导出手的3D姿势。
在这里插入图片描述

第三个网络是这篇论文的核心。这张图是第三个网络。有两个子分支，每个的分支除了最后一层不一样，其他网络结构都一样，输入32x32x21，输出两个层。一个是正则化的手的坐标，以手掌的点为原点，长度进行了标准化，维度为21x3。另一个是相对于实际图片的空间的变换关系，维度为3。
在得到了21个节点的分布热图后，如何推出3D位置信息。手部区域是多视角的，所以有必要先对手部区域的视角进行一下限制，从而使预测过程对视角有一定的不变性。论文中采用了坐标变换，利用两部分对视角的坐标变换进行估计，从而使得某一个特点的节点的z坐标为0。然后对左右手坐标进行了区分。这部分网络同时有了两个任务，第一个任务是预测节点位置信息，第二个任务是估计视角角度，这两个任务用了接近相同的网络框架。再将预测结果进行融合得到最后的坐标。

三、实验

数据集

STB：提供了21个关键点的2D和3D注释，分辨率为640 × 480。数据集显示了一个人的左手在6种不同的背景和照明条件。我们将数据集分为3000图像的评估集 (S-val) 和15000图像的训练集 (S-train)。
Dexter：是提供3111图像的数据集，显示两个操作员在受限的室内设置中使用长方体执行不同类型的操作。数据集提供了指尖和长方体角的彩色图像、深度图和注释。彩色图像具有640 × 320的空间分辨率。由于手注释不完整，我们将此数据集用于研究网络的跨数据集泛化。
这两个数据集由于有限的变化、可用样本的数量和部分不完整的注释，不足以训练深度网络。所以我们提出一个人工合成的新数据集
3.New DataSet: 新数据集提供了33个类的分割图: 每个手指、手掌、人和背景对应3个类。手的三维运动模型为每只手提供21个关键点:每根手指4个关键点，靠近手腕的一个关键点。包含 41258个用于训练的图像和2728个用于验证的图像，分辨率为320×320像素。

实验结果

在这里插入图片描述
第一行是不用分割网络，直接利用Gt提取区域，可以看出来带来的影响还是比较大的。不同数据及也会有不同的影响。

在这里插入图片描述
对PoseNet（第二个网络）使用不同训练集的2D关键点估计结果。图中所示为在Dexter上评估的超过某个阈值的正确关键点（PCK）的百分比（以像素为单位）。在R-train和S-train上联合训练会产生最佳效果。

完整系统的例子。输入到网络的是彩色图像和是左手还是右手的信息。该网络对手部遮挡部分进行估计，在二维空间中定位关键点，并输出最有可能的三维姿态。
在这里插入图片描述
最左边的一栏以灰度显示输入图像，输入分数图以红点覆盖。每行对应于网络的一个单独的前向传递。右边的两列在标准坐标系中从不同的视角显示网络的预测3D结构。地面真相显示为绿色虚线，网络预测显示为红色实线，第二行没有分数图信息输入，此时存在着一定的先验分布，随着节点热图信息的加入，可以看出手指节点位置的预测越来越接近真实值。

四、总结

本文从单个图像中估计出图像中的3D手势。实验已经证明，已经学习了3D姿势先验条件的网络可以从现实世界的图像上的2D关节点预测出合理的3D手势。虽然本文网络的性能与使用深度图的方法相比具有竞争力，但仍有很大的改进空间。性能似乎受限于缺少具有真实世界图像和多样姿势统计数据的带注释的大规模数据集。

王白一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning to Estimate 3D Hand Pose from Single RGB Images

文章目录一、研究的背景和意义二、网络结构三、实验数据集实验结果四、总结一、研究的背景和意义手是人类的主要操作工具。手在空间中的位置，方向和关节对于许多潜在的应用至关重要，例如：机器人中的对象切换，演示学习，手语识别和手势识别，以及将手作为人机交互的输入设备。单个图像的整个手的3D手势估计很困难，因为有很多含糊不清的关节点和严重的自我遮挡。因此，使用特定的传感设备，如数据手套或标记，这将应用限制在有限的情况下。此外，多台摄像机的使用严重限制了应用范围。而且，深度相机并不像普通彩色相机那样容易使用，它
复制链接

扫一扫