[论文评析]MediaPipe Hands: On-device Real-time Hand Tracking, ArXiv,2020


论文信息

论文题目:MediaPipe Hands: On-device Real-time Hand Tracking
发表:ArXiv,2020
作者信息:Zhang F, Bazarevsky V, Vakunov A, et al. Mediapipe hands: On-device real-time hand tracking[J]. arXiv preprint arXiv:2006.10214, 2020.
Google团队的工作

简介

这篇文章基于Mediapipe框架提出了一种端侧实时手部跟踪的解决方案:只利用单个RGB相机即可预测手部的骨架,可应用于AR,VR等场景中。
效果如下图
在这里插入图片描述

手的检测相比于人脸检测,难点在于
(1)模型必须在各种手的尺寸上工作,而且尺度跨度很大(20倍),并能够检测到闭塞和自闭的手
(2)相比于脸部有高对比度的图案,例如眼睛和嘴巴周围,而手部缺乏这样的特征,因此仅从视觉特征上可靠地检测它们相对困难

Mediapipe Hands

那个该框架是如何解决上述问题的?
作者把手的检测拆分为两步:先检测手掌的位置,然后在进一步检测手部的骨骼关键点。 相比于检测手,检测手掌就非常简单了,通过一个矩形框就可以对手掌位置进行建模, 此外手掌属于小目标, 非极大值抑制NMS在即使是双手自封的情况,如握手也工作良好 。

下图展示了基于Mediapipe的手检测流程图。可以看到有两个并行的分支左边的Hand detection分支用来检测手掌的位置,然后基于检测的结果对frame进行裁剪,再把裁剪的结果送入第二个Hand landmark分支来进一步确定骨骼关键点的位置

值得说明的是:并不需要对每一帧都执行Hand detection, 这样既耗时,耗资源,也没有必要。实际上只需要对第一帧以及场景发生变化时(手消失时)执行Hand detection即可。

在这里插入图片描述
下面对Hand detection和Hand land mark这两个分支分别进行介绍。

手掌检测器BlazePalm Detector

作者使用了类似FPN的变啊默契-解码器架构的特征提取器来实现更大的场景上下文感知,即使对于小对象也是如此。在训练过程中使用Focal loss以支持由高尺度差异导致的大量锚点。
在这里插入图片描述

手部骨骼检测Hand Landmark Model

获得手掌区域以后, 手部地标模型Hand Landmark Model通过回归对检测到的手部区域内的21个2.5D坐标进行精确地标定位。如下图所示,模型的输出由三部分构成
(1)21个由X、Y和相对深度组成的手部地标
(2)表明输入图像中存在手的概率的手标志
(3)手性的二元分类,如左手或右手。

在这里插入图片描述
那么第二,第三部分的输出信息有啥用呢?

先说第二个:
之前提到过,hand detection仅在第一帧或者手消失时才触发, 因此,当手的位置发生很大变化时,依据之前帧hand detection的结果抠出来的手掌肯定有问题,因此这里的hand presence用于产生一个合理对齐的手确实存在于所提供的作物中的事件的概率, 如果这个值低于指定阈值,则触发hand detection来重置tracking (即更新手掌位置信息), 第二张图的一条蓝色虚线对应这一过程。

再来看第三个:
手性是在AR/VR中使用手进行有效互动的另一个重要属性, 因此,开发了一个二元分类头来预测输入的手是左手还是右手。

数据集构造

由于需要训练模型,数据集的构造非常重要。作者总共使用了3种数据集:野生环境下的数据集, 内部收集的手势数据集, 合成数据集。数据集的示例如下图:
在这里插入图片描述
那么数据集与对应任务之间的关系?

对于Palm detector, 仅使用野生环境下的数据集来训练,;

对于Hand landmark detector, 使用所有的数据集来训练;

对于hand presence,选择一个野生环境下的数据集子集作为正面例子,并在不包括注释的手部区域的区域上取样作为负面例子;

对于handedness, 我们对真实世界的图像子集进行手性注释,以提供此类数据。

应用

该手部跟踪解决方案可以应用于收拾识别,AR等众多应用领域,下图是该方案应用与收拾识别的案例。
在这里插入图片描述
该案例中, 在预测的手部骨架的基础上,我们采用一个简单的算法来计算手势,首先,每个手指的状态,如弯曲或直,是通过关节的累积角度来确定的。然后,我们将一组手指的状态映射到一组预定义的手势。这种直接而有效的技术使我们能够以合理的质量估计基本的静态手势。除了静态手势识别,还可以使用地标序列来预测动态手势。

另一个应用是在骨架之上应用AR效果。基于手的AR效果目前享有很高的人气。下图展示了一个霓虹灯风格的手部骨架的AR渲染实例。
在这里插入图片描述

References

1.Zhang F, Bazarevsky V, Vakunov A, et al. Mediapipe hands: On-device real-time hand tracking[J]. arXiv preprint arXiv:2006.10214, 2020.

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: MediaPipe Hands是一种基于设备的实时手部追踪技术。它是由Google开发的计算机视觉库MediaPipe的一部分,旨在通过摄像头捕捉的视频流对手部进行准确的实时追踪。 Mediapipe Hands利用了深度学习模型和机器学习算法,能够识别视频中出现的双手,并对它们的位置和手势进行跟踪。这项技术可以应用在许多领域,包括虚拟现实、增强现实、手势识别和手势控制等。例如,在游戏中,可以使用Mediapipe Hands实时追踪玩家的手势,将其转化为虚拟角色在游戏中进行相应的动作。 Mediapipe Hands的一个显著特点是其在设备上的实时性能。相比于传统的手部追踪方法,Mediapipe Hands能够在保持高准确性的同时,实现实时的处理和反馈。这得益于其优化的模型架构和高效的计算算法。作为一种基于设备的解决方案,Mediapipe Hands无需依赖云端服务或高性能硬件,可以在较低功耗和资源受限的设备上运行。 此外,Mediapipe Hands还支持多个手势的识别和跟踪。它可以检测手的位置、边界框、手指的位置和手势类别,例如拇指的弯曲、手掌的张开和手势的连续跟踪。这种多样性使Mediapipe Hands成为一个强大而灵活的工具,适用于不同的视觉和交互应用。 总之,Mediapipe Hands是一种基于设备的实时手部追踪技术,具有高准确性、低延迟和多功能的特点。它为虚拟现实、增强现实、手势识别和控制等应用领域提供了一种简单而可靠的解决方案。 ### 回答2: MediaPipe Hands是一个由Google开发的机器学习技术,用于在设备上实现实时手部追踪。它基于深度学习模型,可以从设备的摄像头中识别和跟踪手部的动作和位置。 Mediapipe Hands使用的模型经过训练,可以识别手部的21个关键点,包括手指的关节和指尖。它可以在设备上实时分析摄像头捕捉到的图像,并进行准确的手部追踪。这种技术可以用于手势识别、手势控制和虚拟现实等应用领域。 相比于传统的基于云端的手部追踪技术,Mediapipe Hands的优势在于其实时性和隐私性。由于模型是在设备本地运行,不需要依赖于云端的计算资源,因此可以实现即时的反馈和交互。同时,所有的图像和手部数据都在设备上进行处理,保护了用户的隐私。 除了实时追踪手部的动作和位置外,Mediapipe Hands还可以提供手势识别的功能。通过识别手部的动作和位置,它可以判断用户是点击屏幕、捏取物体还是做出其他手势。这种手势识别能够为用户提供更自然、直观的交互体验,并且可以被广泛应用于手机、平板电脑、AR/VR设备等不同类型的设备上。 总之,Mediapipe Hands是一项强大的机器学习技术,能够在设备上实现实时的手部追踪和手势识别。它为用户提供了更直观、自然的交互体验,并且保护了用户的隐私。这项技术具有广泛的应用潜力,可以用于各种不同的设备和场景。 ### 回答3: Mediapipe Hands是一项在设备上实时手部追踪技术,由谷歌开发。它利用神经网络模型和计算机视觉技术,能够精确地检测和跟踪人手的动作和姿势。 这项技术主要适用于在移动设备和嵌入式系统上进行手部追踪。相比于传统的云端追踪方案,Mediapipe Hands使用了高效的计算机视觉算法,能够在设备本地实时进行处理,无需依赖云端网络服务,有效提高了实时性和隐私性。 利用Mediapipe Hands技术,用户可以通过摄像头捕捉手部的位置和动作,实现手势识别、手势控制等功能。这项技术可以广泛应用于移动游戏、虚拟现实、增强现实、手势交互和人机界面等领域。 Mediapipe Hands的优势在于其快速准确的手部追踪能力。它能够将手部的关键点(如手指、掌心等)精确地识别和跟踪,实现高精度的手部姿势估计。而且,由于是在设备上进行实时处理,其响应速度非常快,可以满足实时交互的需求。 总体而言,Mediapipe Hands是一项在设备上实时追踪手部动作和姿势的技术。它的应用范围广泛,可以用于移动设备和嵌入式系统,提供高精度的手部追踪功能,为用户带来更加现实、交互友好的体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MasterQKK 被注册

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值