3D hand pose:MediaPipe Hands: On-device Real-time Hand Tracking

论文链接:https://arxiv.org/pdf/2006.10214.pdf
论文代码:https://google.github.io/mediapipe/solutions/hands.html
参考资料:使用 MediaPipe 实现设备端实时手部追踪
论文出处:2020CVPR Workshop
研发团队:Google Research

0.摘要

  • 论文主要提出了一种实时的手跟踪方案,从单目RGB图像上预测手的skeleton。
  • 方法的pipeline包括2个模型:(1)手掌检测模型(palm detector);(2)手骨骼估计模型(hand landmark model)。

1. Introduction

  • 论文的主要贡献:
    (1)一个高效的two-stage手跟踪pipeline,可以在移动设备上实时的跟踪多个手
    (2)一个手姿态估计模型,能够在RGB图像上预测2.5D的手姿态。
    (3)一个开源的手跟踪pipeline,作为 ready-to-go的方案,可以运行在多个平台上,如Android, iOS, Web (Tensorflow.js) 和 desktop PCs。

2. 框架

  • 本文的手跟踪pipeline包括两个模型
    (1)一个手掌检测器,通过预测一个有方向性的手的bounding box在输入的整张图片上进行手定位。
    (2)一个hand landmark模型,在手掌检测器根据bounding box裁剪之后的手图片上运行,并返回高保真的2.5D landmarks.

  • 在实时的跟踪方案中,我们从上一帧的landmark预测中推导出一个边界框作为当前帧的输入,从而避免了在每一帧上应用检测器。相反,检测器只应用于第一帧或手预测表明手丢失时。

2.1 BlazePalm Detector

  • 检测手是一个复杂的任务,模型需要检测很大范围跨度的尺寸的手(~20x),需要检测遮挡和自遮挡的手。与人脸检测相比,人脸有高对比度模型,人手没有类似的特征,使其只通过视觉特征检测相对困难。
  • 首先,训练一个palm detector 代替palm detector ,因为检测刚性物体,如手掌或拳头的bounding box会非常容易,与检测具有关节手指的hand相比。此外,palm是更小的目标,non-maximum suppression 算法能够更好的工作,即使在双手自遮挡的情况下,如握手。另外,手掌能够只用正方形bounding box模型化,可以忽略其他长宽比,因此可以减少anchors的数量。
  • 其次,使用了一个类似FPN的encoder-decoder特征提取器来应对大场景环境感知,即使是小目标。
  • 最后,在训练过程中最小化 focal loss,以支持高尺度方差产生的大量anchors。
  • 手掌检测器网络结构如下:
    在这里插入图片描述
  • 进行了消融实验的对比:
    在这里插入图片描述

2.2 Hand Landmark Model

进行完手掌检测后,在手定位范围内通过 hand landmark model回归出精确的21个 hand landmarks的2.5D坐标。
在这里插入图片描述
模型有3个输出:
(1)21个hand landmarks,包含xy,和相对的depth
(2)表示输入图像中手存在的概率的手标志(hand flag)。
(3)二值分类的handedness,如左手或右手

3. Dataset and Annotation

本文用到3个数据集:

  • In-the-wild dataset:包括6K个各种各样的手图像,如不同的背景纹理、不同的光照、不同的手外表。缺点是数据集不包含复杂的手结构。
  • In-house collected gesture dataset:10K数据,包含各种不同角度的可能的手势。缺点是只采集了30个人的手,且背景有限。
  • Synthetic dataset:渲染的手模型包括24个bones,36个混合形状(控制手指和手掌的厚度),5种纹理肤色。共100K的图像。
    在这里插入图片描述
  • 对于 palm detector,只使用in-the-wild dataset进行训练。
  • 对于hand landmark model,使用所有数据集训练。
    标注了21个landmarks在真实世界的图片上,在合成图像上使用投射的3D关节的ground truth。
    对于 hand presence,我们选择真实世界图像的子集作为正样本,并在排除标注的手区域作为负样本的区域上取样。
    对于handedness,我们用handedness标注真实世界图像的子集以提供此类数据。

4. Results

在不同数据集上的验证结果:
在这里插入图片描述
训练了3种模型,经过对比,Full model可以兼顾准确率和时间。
在这里插入图片描述

5. MediaPipe graph for hand tracking

在这里插入图片描述

6. 手势识别的应用

在这里插入图片描述

### 回答1: MediaPipe Hands是一种基于设备的实时手部追踪技术。它是由Google开发的计算机视觉MediaPipe的一部分,旨在通过摄像头捕捉的视频流对手部进行准确的实时追踪。 Mediapipe Hands利用了深度学习模型和机器学习算法,能够识别视频中出现的双手,并对它们的位置和手势进行跟踪。这项技术可以应用在许多领域,包括虚拟现实、增强现实、手势识别和手势控制等。例如,在游戏中,可以使用Mediapipe Hands实时追踪玩家的手势,将其转化为虚拟角色在游戏中进行相应的动作。 Mediapipe Hands的一个显著特点是其在设备上的实时性能。相比于传统的手部追踪方法,Mediapipe Hands能够在保持高准确性的同时,实现实时的处理和反馈。这得益于其优化的模型架构和高效的计算算法。作为一种基于设备的解决方案,Mediapipe Hands无需依赖云端服务或高性能硬件,可以在较低功耗和资源受限的设备上运行。 此外,Mediapipe Hands还支持多个手势的识别和跟踪。它可以检测手的位置、边界框、手指的位置和手势类别,例如拇指的弯曲、手掌的张开和手势的连续跟踪。这种多样性使Mediapipe Hands成为一个强大而灵活的工具,适用于不同的视觉和交互应用。 总之,Mediapipe Hands是一种基于设备的实时手部追踪技术,具有高准确性、低延迟和多功能的特点。它为虚拟现实、增强现实、手势识别和控制等应用领域提供了一种简单而可靠的解决方案。 ### 回答2: MediaPipe Hands是一个由Google开发的机器学习技术,用于在设备上实现实时手部追踪。它基于深度学习模型,可以从设备的摄像头中识别和跟踪手部的动作和位置。 Mediapipe Hands使用的模型经过训练,可以识别手部的21个关键点,包括手指的关节和指尖。它可以在设备上实时分析摄像头捕捉到的图像,并进行准确的手部追踪。这种技术可以用于手势识别、手势控制和虚拟现实等应用领域。 相比于传统的基于云端的手部追踪技术,Mediapipe Hands的优势在于其实时性和隐私性。由于模型是在设备本地运行,不需要依赖于云端的计算资源,因此可以实现即时的反馈和交互。同时,所有的图像和手部数据都在设备上进行处理,保护了用户的隐私。 除了实时追踪手部的动作和位置外,Mediapipe Hands还可以提供手势识别的功能。通过识别手部的动作和位置,它可以判断用户是点击屏幕、捏取物体还是做出其他手势。这种手势识别能够为用户提供更自然、直观的交互体验,并且可以被广泛应用于手机、平板电脑、AR/VR设备等不同类型的设备上。 总之,Mediapipe Hands是一项强大的机器学习技术,能够在设备上实现实时的手部追踪和手势识别。它为用户提供了更直观、自然的交互体验,并且保护了用户的隐私。这项技术具有广泛的应用潜力,可以用于各种不同的设备和场景。 ### 回答3: Mediapipe Hands是一项在设备上实时手部追踪技术,由谷歌开发。它利用神经网络模型计算机视觉技术,能够精确地检测和跟踪人手的动作和姿势。 这项技术主要适用于在移动设备和嵌入式系统上进行手部追踪。相比于传统的云端追踪方案,Mediapipe Hands使用了高效的计算机视觉算法,能够在设备本地实时进行处理,无需依赖云端网络服务,有效提高了实时性和隐私性。 利用Mediapipe Hands技术,用户可以通过摄像头捕捉手部的位置和动作,实现手势识别、手势控制等功能。这项技术可以广泛应用于移动游戏、虚拟现实、增强现实、手势交互和人机界面等领域。 Mediapipe Hands的优势在于其快速准确的手部追踪能力。它能够将手部的关键点(如手指、掌心等)精确地识别和跟踪,实现高精度的手部姿势估计。而且,由于是在设备上进行实时处理,其响应速度非常快,可以满足实时交互的需求。 总体而言,Mediapipe Hands是一项在设备上实时追踪手部动作和姿势的技术。它的应用范围广泛,可以用于移动设备和嵌入式系统,提供高精度的手部追踪功能,为用户带来更加现实、交互友好的体验。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值