人体关键点检测与MMPose

最新推荐文章于 2024-07-02 09:03:05 发布

百川_IoT

最新推荐文章于 2024-07-02 09:03:05 发布

阅读量790

点赞数

分类专栏： AI实战营学习笔记文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qq_44798533/article/details/130993031

版权

AI实战营学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

人体姿态估计
3D姿态估计
人体参数化模型
下游任务
2D人体估计的主流算法和局限性
AI问答辅助思考

人体姿态估计

人体姿态估计任务是计算机视觉中的一个重要任务，它的目标是从一张图片或者一个视频中识别并估计出人体的姿态。这通常涉及到识别人体的关键部位（例如头部，手腕，膝盖等）以及它们之间的连接方式，从而形成一个人体姿态模型。这项技术有很多应用，包括动画制作、健康医疗、体育训练、人机交互等等。
在这里插入图片描述

3D姿态估计

3D姿态估计是一个计算机视觉任务，其目标是从二维图像或视频中恢复出三维空间中的人体姿态。这意味着除了在二维图像上定位关键点（例如手腕、膝盖等）外，还需要确定这些点在三维空间中的深度信息。

这是一个具有挑战性的任务，因为从二维图像恢复出三维信息存在着固有的歧义性。例如，从一个二维视角看，两个手臂可能看起来是重叠的，但在三维空间中，一个手臂可能比另一个更靠近观察者。

为了解决这些问题，研究者们使用了多种方法，包括基于深度学习的方法，这些方法通过训练大量的带有姿态标注的数据，学习从二维图像到三维姿态的映射关系。

3D姿态估计在许多领域都有重要应用，例如虚拟现实、增强现实、游戏、运动分析、医疗保健和机器人技术等。
在这里插入图片描述

人体参数化模型

人体参数化模型是一种用来表示人体形状和姿态的数学模型。这些模型通常基于真实人体数据进行构建，通过一组参数来控制生成的人体形状和姿态。

其中最著名的人体参数化模型包括SMPL（Skinned Multi-Person Linear Model）和SURREAL（Synthetic Humans for Recognition）等。这些模型使用一组控制关节位置的参数（如手臂弯曲的角度，头部旋转的程度等）和一组控制身体形状的参数（如身高，体重等）。

人体参数化模型在很多领域都有应用，包括计算机图形学（如创建逼真的人体动画）、计算机视觉（如3D人体姿态估计）以及生物力学等。

使用这些模型的一大优点是，它们可以生成多样性的人体形状和姿态，从而适应不同的应用场景。然而，由于人体的复杂性，创建一个精确和实用的人体参数化模型仍然是一个挑战。

下游任务

行为识别

行为识别是一种计算机视觉任务，目的是从一系列图像或视频中识别和理解人或动物的行为或动作，如跑步、跳跃、摔倒等。这个技术在监控系统、视频游戏、人机交互和医疗健康等领域有着广泛的应用。

CG、动画

人机交互

在这里插入图片描述

动物行为识别

在这里插入图片描述

2D人体估计的主流算法和局限性

主流的2D人体姿态估计算法主要基于深度学习。算法通常包括两个主要步骤：1) 检测人体的关键点，比如头部、手腕、膝盖等；2) 根据关键点之间的空间关系，推断出人体的姿态。

这类算法的具体形式可以有很多，如卷积神经网络（CNN）和深度卷积神经网络（Deep CNN），以及更复杂的模型，例如堆叠式沙漏网络（Stacked Hourglass Networks）和简单快速准确关键点检测器（Simple, Fast, Accurate Keypoint Detector，简称：OpenPose）。

然而，尽管这些方法在很多情况下能够取得不错的效果，但它们还存在一些局限性：

对遮挡的处理：如果人体的一部分被遮挡，这些算法可能会产生错误的姿态估计。
视角变化：这些算法的性能通常依赖于视角。对于一些罕见的或极端的视角，它们可能无法准确估计姿态。
计算复杂度：深度学习算法通常需要大量的计算资源和数据，这可能限制了它们在资源有限的设备上的应用。
二维信息的局限：2D人体姿态估计无法提供深度信息，对于需要三维信息的应用场景，例如增强现实和虚拟现实，其应用可能受到限制。

AI问答辅助思考

人体关键点检测的数据集是什么样的？

人体关键点检测的数据集通常包含大量的图像或视频，以及与之对应的关键点标注。这些标注信息表明了每个人体关键点在图像中的位置。人体关键点通常包括头部、颈部、肩部、手腕、肘部、膝盖、脚踝等部位。

举个例子，MPII Human Pose数据集就是一个著名的2D人体姿态估计数据集。它包含了大约25000张图像，涵盖了多种日常活动场景，每个图像都包含了人体14个主要关键点的标注。

对于3D人体姿态估计，数据集还会包含深度信息或多视角图像，例如Human3.6M数据集，它是一个大型的3D人体姿态估计数据集，包含了从多个相机角度捕获的人体运动图像，以及对应的3D关键点标注。

这些数据集通常通过复杂的采集和标注过程生成，例如使用多视角摄像头、深度传感器或者通过人工标注等方式。

请用python给出数据集示例，并绘图展示

我将使用Python的matplotlib和numpy库以及一个假设的简化数据集来演示这个过程。请注意，由于这是一个示例，所以我们只考虑一个图像和四个关键点（左右手和左右脚）。

这是一个非常简化的情况，实际的数据集会包含数以千计的图像，每个图像都有多个关键点。

import matplotlib.pyplot as plt
import numpy as np

# 假设我们有一个200x200的图像
image = np.random.rand(200, 200)

# 假设我们有四个关键点：左手、右手、左脚、右脚
# 关键点坐标存储在一个二维数组中，每行对应一个关键点的 (y, x) 坐标
keypoints = np.array([
    [50, 100],  # 左手
    [50, 150],  # 右手
    [150, 100],  # 左脚
    [150, 150]  # 右脚
])

# 显示图像
plt.imshow(image, cmap='gray')

# 在关键点位置画红色圆点
for y, x in keypoints:
    plt.scatter(x, y, c='r')

plt.show()