姿态估计开源模型、数据集分享

virtaitech

于 2024-06-12 13:53:52 发布

阅读量1.5k

点赞数 23

文章标签： python 人工智能机器学习 gpu算力

本文链接：https://blog.csdn.net/m0_49711991/article/details/139624697

版权

姿态估计是一种计算机视觉技术，旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点，如头部、肩膀、手臂、腿部等，并确定它们之间的关系，以推断出人体的姿势或动作。

姿态估计因其在各个领域的广泛应用而引起了研究人员的兴趣。

如：

体育训练分析：可以利用精确的人体姿态追踪，评估运动员的动作准确度，帮助教练进行个性化指导。
人机交互：姿态估计使计算机能够解读和响应人类手势，从而实现人与机器之间更直观、更自然的交互。
虚拟现实与游戏：利用姿势估计技术，实现更加真实的互动体验。玩家的动作可以直接映射到虚拟角色上，增强了游戏的沉浸感和交互性。
......

此外，由于人和四足动物在身体结构上的相似性，不难引发研究人员对基于人体姿态估计的预训练模型可能会对大规模动物姿态数据集的训练效果起到促进作用的猜想。

而准确的动物姿态估计对于理解动物行为至关重要，尤其对于野生动物保护。因此，一些人体姿态估计模型已经拓展至兼容动物姿态估计功能，为科学家提供了更多工具和技术支持，有助于监测、研究和保护野生动物的生态环境。

本文分享了一些姿态估计的开源模型和数据集，涵盖了人体姿态和动物姿态。希望这些资源能够帮助研究人员促进这两者技术的共同发展，实现全面开花。

OpenPose

OpenPose 是首个实时多人人体姿态估计系统，主要针对实时场景下多人的手部、面部、足部等人体关键点（总共135个关键点），进行检测。

项目链接：https://github.com/CMU-Perceptual-Computing-Lab/openpose
论文链接：https://arxiv.org/pdf/1611.08050
更多介绍：https://github.com/TommyZihao/Zihao-Blog/blob/master/Github%E5%BC%80%E6%BA%90%E4%BA%BA%E4%BD%93%E5%A7%BF%E6%80%81%E8%AF%86%E5%88%AB%E9%A1%B9%E7%9B%AEOpenPose%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3.md

MMPose

MMPose 是一款基于 PyTorch 的姿态分析的开源工具箱，支持 21 种算法、34 种数据集、14 种主流骨干。在最新更新的版本中，新增支持数据集ExLPose 和H3WB，以及发布了单阶段实时多人姿态估计模型RTMO。相比RTMPose在多人场景下性能更优。

项目链接：https://github.com/open-mmlab/mmpose

DensePose

DeepPose 是开创性的基于深度学习的姿势估计方法之一，引入使用卷积神经网络（CNN）直接从输入图像中回归人类的关节位置，可实现实时且高准确度的人体姿态估计。

项目链接：http://densepose.org/
论文链接：https://arxiv.org/abs/1802.00434

AlphaPose

AlphaPose，一个能够在实时运行中进行准确的全身姿势估计和跟踪的系统。无论是检测购物街中的多个人、快闪族还是街头表演者，都可以借助此模型实现。

AlphaPose 还是首个在 COCO 数据集上实现了 70+ mAP（75 mAP）和 MPII 数据集上实现了 80+ mAP（82.1 mAP）的开源系统。

项目链接：https://github.com/MVIG-SJTU/AlphaPose
论文链接：https://arxiv.org/abs/2211.03375

YOLOv8

当提到 YOLO 模型时，最先想到的是进行目标检测，而 YOLOv8 最新更新版本，加入了姿态估计功能，总计发布了 YOLOv8n-pose、YOLOv8s-pose...YOLOv8x-pose-p6 等 6 个模型，在 A100 上的推断速度从 1.18ms 到 10.04ms，模型参数 3.3M 到 99.1M。

项目链接：https://docs.ultralytics.com/tasks/pose/

Human-Art

Human-Art，首个大规模全场景人体数据集，是由 IDEA 研究院收集了来自 5 个现实场景和 15 个虚拟场景的 5 万张高质量图像组成。

支持多项以人为主的下游视觉任务：人体检测、2D人体姿态估计、3D人体姿态估计、图片生成。

论文收录于 CVPR 2023。

项目链接：https://github.com/IDEA-Research/HumanArt
论文链接：https://arxiv.org/abs/2303.02760
更多介绍：https://www.idea.edu.cn/news/5773.html

UBody Dataset

UBody 是从 ConductMusic、Conference、Entertainment、Fitness、Interview、LiveVlog、MagicShow、Movie、Olympic、OnlineClass、SignLanguage、Singing、Speech、TVShow、Talk Show 十五个真实生活场景中收集的超 1051k 帧视频组成，是一个大规模的上半身数据集，包含以下标注：

2D 全身关键点
3D SMPLX 标注
frame validity label
人体边界框、手部边界框

数据下载需填写相关信息申请，论文收录于CVPR 2023。

项目链接：https://osx-ubody.github.io/
论文链接：http://arxiv.org/abs/2303.16160

MacaquePose

MacaquePose 是一个动物姿态数据集，由 13083 张猕猴图像组成，这些图像收集自互联网、动物园以及京都大学灵长类动物研究所。

每张图像中的每只猴子的身体部位（关键点）均进行了人工标注，包括鼻子、左右耳、眼睛、肩膀、肘部、手腕、髋部、膝盖和脚踝，共计17个关键点。

项目链接：https://www.pri.kyoto-u.ac.jp/datasets/macaquepose/index.html

AP-10K

AP-10K 是首个大规模的哺乳动物姿态数据集，包含 10015 张标记有姿态信息的哺乳动物图片，并进行了高质量的关键点标注。此外，从生物学角度来看，这些图片被归类为23个科、54个物种。

项目链接：https://github.com/AlexTheBad/AP-10K
论文链接：https://openreview.net/forum?id=rH8yliN6C83

17个关键点的定义

动物种类分布

Human3.6M

Human3.6M 数据集是一个 3D 人体姿态识别的数据集，通过 4 个经过校准的摄像机拍摄获得，对于 3D 人体的 24 个部位位置和关节角度都有标注。数据集总共包含了 360 万个 3D 人体姿势图像，参与拍摄的有 11 位专业演员（男性 6 名，女性 5 名），并覆盖了 17 种不同的场景，例如讨论、吸烟、拍照、通电话等。

项目链接：http://vision.imar.ro/human3.6m/description.php
数据下载：https://drive.google.com/drive/folders/112GPdRC9IEcwcJRyrLJeYw9_YV4wLdKC

无论是人体姿态估计还是动物姿态估计的研究，都需要大量的算力资源的支持。趋动云作为领先的算力服务商，凭借其高性能计算资源，能够快速处理海量数据，并为开发人员提供强有力的支持，让他们在姿态估计领域畅行无阻！

❝
趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务，也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人：

📍通过连接全球算力，趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区，趋动云可以帮助AI开发者接入丰富的生态，快速实现最佳实践。

趋动云