文 / Valentin Bazarevsky 和 Ivan Grishchenko,研究工程师,Google Research
在增强现实、手语识别、全身姿态控制以及量化周期循环等领域中,视频中的姿势预测可以将数字内容和信息叠加到物理世界,也可由此构成瑜伽、舞蹈和健身等应用的基础功能。健身应用的姿势预测尤其具有挑战性:由于运动时种类繁多身体姿态(如数百种瑜伽体式)、自由度很高、可能存在遮挡物(如从摄像头看到身体或其他物体遮挡四肢)以及各式服装或装饰等。
手语识别
https://youtu.be/N0Vm0LXmcU4全身姿态控制
https://blog.google/technology/ai/move-mirror-you-move-and-80000-images-move-you/
BlazePose 在健身和舞蹈应用上的示例
今天,我们推出一种全新人体姿态感知方法:BlazePose,我们已在 CVPR 2020 的 CV4ARVR 研讨会上进行过介绍。我们的方法采用机器学习 (ML),从单帧画面推断人体的 33 个 2D 关键点提供人体姿态追踪。相较于当前基于标准 COCO 拓扑的姿态模型,BlazePose 可以精确定位更多关键点,因此特别适合于健身应用。此外,当前最前沿 (SOTA) 的方法主要依靠强大的桌面环境进行推理,而我们的方法通过 CPU 推理在手机端实现了实时性能。如果利用 GPU 推理,BlazePose 可以实现超实时性能,从而运行后续的 ML 模型,如面部或手部追踪。
BlazePose
https://solutions.mediapipe.dev/pose介绍
https://arxiv.org/abs/2006.10204
MediaPipe 中的上半身 BlazePose 模型
拓扑网络
人体姿态的当前标准是 COCO 拓扑,由横跨躯干、手臂、腿部和面部的 17 个关键点组成。不过,COCO 关键点只能定位脚踝和腕部的点,缺乏手和脚的比例和方向