构建基于深度学习的人体姿态估计系统数据预处理到模型训练、评估和部署 _如何利用人体姿态识别估计数据集_数据进行人体姿态估计研究的建议Human3.6M

计算机C9硕士_算法工程师

于 2025-01-20 07:19:37 发布

阅读量1k

点赞数 37

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/2401_88440984/article/details/145251252

版权

构建基于深度学习的人体姿态估计系统数据预处理到模型训练、评估和部署 如何利用人体姿态识别估计数据集_数据进行人体姿态估计研究的建议__ _人体姿态估计数据集:human3.6m

w文章内容及代码仅供参考在这里插入图片描述
By. subject:
SubjectS1 : Videos Segments Features Depth Scanner Poses
RawAngles
D3 Angles
D3 Angles mono
D3 Positions
D3 Positions mono
D3 Positions mono universal
D2 Positions
SubjectS5 : Videos Segments Features Depth Scanner Poses
SubjectS6 : Videos Segments Features Depth Scanner Poses
SubjectS7 : Videos Segments Features Depth Scanner Poses
SubjectS8 : Videos Segments Features Depth Scanner Poses
Subject S9 : Videos Segments Features Depth Scanner Poses
Subject S11 : Videos Segments Features Depth Scanner Poses
By. scenario:
Directions
Videos Segments Features Depth Poses
Discussion
Videos Segments Features Depth Poses
Eating
Videos Segments Features Depth Poses
Greeting
Videos Segments Features Depth Poses
Phone Call
Videos Segments Features Depth Poses
Posing
Videos Segments Features Depth Poses
Purchases
Videos Segments Features Depth Poses
Sitting
Videos Segments Features Depth Poses
Sitting Down : Videos Segments Features Depth Poses
Smoking
Videos Segments Features Depth Poses
Taking Photo :
Videos Segments Features Depth Poses
Waiting
Videos Segments Features Depth Poses
Walking
Videos Segments Features Depth Poses
Walking Dog
Videos Segments Features Depth Poses
Walking Together : Videos Segments Features Depth Poses
TESTING DATA
By subject:
Subject S2 : Videos Segments Features
Subject S3 : Videos Segments Features
SubjectS4 : Videos Segments Features
Subject S10: Videos Segments Features
在这里插入图片描述

在这里插入图片描述

By_ subject:
Subject S1 : Videos Segments Features Depth Scanner
Poses
Mesh
PointCloud
Subject S5 : Videos Segments Features Depth Scanner
Poses
Subject S6 : Videos Segments Features Depth Scanner
Poses
Subject S7 : Videos Segments Features Depth Scanner
Poses
Subject S8 : Videos Segments Features Depth Scanner
Poses
Subject S9 : Videos Segments Features Depth Scanner
Poses
Subject S11 : Videos Segments Features Depth Scanner
Poses
在这里插入图片描述

By_ subject:
SubjectS1 : Videos Segments
Features Depth Scanner Poses
BBoxes MAT
BackSub MAT
PartL abels MAT
RawDepth MAT
SCDepth MAT
BackSub MPEG4
Subject S5 : Videos Segments
Features Depth Scanner Poses
Subject S6 : Videos Segments
Features Depth Scanner Poses
Subject S7 : Videos Segments
Features Depth Scanner Poses
Subject S8 : Videos Segments
Features Depth Scanner Poses
Subject S9 : Videos Segments
Features Depth Scanner Poses
Subject S11 : Videos Segments
Features Depth Scanner Poses

在这里插入图片描述

Human3.6M 是一个广泛使用的人体姿态估计数据集，它提供了丰富的多模态数据，包括RGB视频、深度图像、3D姿势等。该数据集由多个受试者（Subjects）在不同场景下执行各种动作录制而成。根据你的描述，我将对数据集的结构和内容进行整理，如何利用这些数据进行人体姿态估计研究的建议。

数据集结构

按受试者划分的数据

训练/验证数据 (Training/Validation Data)
- Subject S1, S5, S6, S7, S8, S9, S11: 包含以下几种类型的数据：
  - Videos Segments: 录制的视频片段。
  - Features: 提取的特征信息。
  - Depth Scanner Poses: 深度扫描仪捕捉到的姿态信息。
  - RawAngles, D3 Angles, D3 Angles mono, D3 Positions, D3 Positions mono, D3 Positions mono universal, D2 Positions: 不同形式的角度和位置信息。
测试数据 (Testing Data)
- Subject S2, S3, S4, S10: 主要包含视频片段和特征信息，用于模型评估。

按场景划分的数据

Directions, Discussion, Eating, Greeting, Phone Call, Posing, Purchases, Sitting, Sitting Down, Smoking, Taking Photo, Waiting, Walking, Walking Dog, Walking Together: 这些是不同的活动场景，每个场景都记录了受试者的视频片段、特征、深度信息以及姿态信息。

其他补充数据

Mesh, PointCloud, BBoxes MAT, BackSub MAT, PartLabels MAT, RawDepth MAT, SCDepth MAT, BackSub MPEG4: 这些额外的数据提供了更详细的几何信息和其他辅助信息，如边界框、背景减除后的图像等。

使用建议

选择合适的输入数据：根据你的人体姿态估计方法，选择适合的输入数据类型。例如，如果你的方法基于RGB图像，则可以使用Videos Segments；如果需要深度信息，则可以选择Depth Scanner Poses或相关深度数据。
预处理：对于原始视频或图像序列，可能需要进行帧率调整、裁剪、归一化等预处理步骤。对于深度数据，可能还需要填充缺失值或者平滑噪声。
标签准备：确保正确解析并使用提供的3D姿态信息作为监督信号。这通常涉及到将关节坐标转换为模型所需的格式。
模型设计：根据任务需求设计适当的网络架构。可以考虑使用现有的开源框架如OpenPose、HRNet等作为起点，或者构建自定义的CNN/RNN/Transformer模型。
训练与验证：使用Subject S1, S5, S6, S7, S8, S9, S11的数据进行训练，并在Subject S2, S3, S4, S10上进行验证和测试。注意保持训练集和测试集之间的独立性以避免过拟合。
评价指标：常用的评价指标包括平均关键点误差（Mean Per Joint Position Error, MPJPE），即预测姿态与真实姿态之间关节位置差的平均值。
探索多模态融合：尝试结合RGB视频、深度图等多种模态的信息来提高姿态估计的准确性。比如，可以通过早期融合（Early Fusion）、晚期融合（Late Fusion）或者混合融合策略来进行实验。
高级应用：一旦建立了基本的姿态估计系统，可以进一步探索如行为识别、异常检测等高级应用。

示例代码片段

这里给出一个简单的Python代码片段，用于加载和展示来自Human3.6M的数据：

import numpy as np
import h5py
import matplotlib.pyplot as plt

# 假设我们有一个HDF5文件，其中包含了某个受试者的部分数据
file_path = 'path/to/human3.6m/data.h5'

with h5py.File(file_path, 'r') as f:
    # 获取所有可用的关键组名
    print("Available keys:", list(f.keys()))

    # 加载特定的动作数据，例如 'Walking'
    if 'Walking' in f:
        walking_data = f['Walking'][:]
        print("Shape of Walking data:", walking_data.shape)

        # 展示前几个时间步的姿态
        for i in range(min(5, walking_data.shape[0])):
            pose = walking_data[i]
            plt.figure()
            plt.scatter(pose[:, 0], pose[:, 1])
            plt.title(f'Walking Pose at Time Step {i}')
            plt.show()

# 注意：具体的键名和数据结构取决于实际的HDF5文件组织方式，请参照官方文档或数据集说明

这个代码片段展示了如何打开一个HDF5格式的数据文件，检查其内容，并可视化某些时间步的姿态信息。请根据实际情况调整路径和键名。

构建一个人体姿态估计系统涉及多个步骤，从数据预处理到模型训练、评估和部署。以下是一个详细的指南，包括代码示例和解释，帮助你使用Human3.6M数据集来构建一个基于深度学习的人体姿态估计系统。

1. 环境设置

首先，确保安装了必要的库：

pip install numpy matplotlib opencv-python h5py torch torchvision

2. 数据加载与预处理

2.1 加载数据

假设你已经下载了Human3.6M数据集，并且它以HDF5格式存储。我们将编写一个函数来加载这些数据。

import h5py
import numpy as np

def load_h36m_data(file_path, action='Walking'):
    with h5py.File(file_path, 'r') as f:
        if action in f:
            data = f[action][:]
            return data
        else:
            print(f"Action {action} not found in the dataset.")
            return None

# 示例：加载行走动作的数据
file_path = 'path/to/human3.6m/data.h5'
walking_data = load_h36m_data(file_path, 'Walking')
print("Loaded walking data shape:", walking_data.shape)

2.2 预处理

对于姿态估计任务，通常需要对原始数据进行一些预处理，比如归一化、填充缺失值等。这里我们简单地将数据归一化到[-1, 1]范围内。

def preprocess_data(data):
    # 假设data是形状为 (num_frames, num_joints, 3) 的numpy数组
    data_min = np.min(data, axis=(0, 1), keepdims=True)
    data_max = np.max(data, axis=(0, 1), keepdims=True)
    normalized_data = 2 * (data - data_min) / (data_max - data_min) - 1
    return normalized_data

normalized_walking_data = preprocess_data(walking_data)
print("Normalized walking data shape:", normalized_data.shape)

3. 构建模型

我们将使用PyTorch框架来构建一个简单的卷积神经网络（CNN）作为示例。你可以根据需要替换成更复杂的架构如HRNet或Transformer。

import torch
import torch.nn as nn
import torch.optim as optim

class SimplePoseEstimator(nn.Module):
    def __init__(self, input_channels=3, output_channels=16):
        super(SimplePoseEstimator, self).__init__()
        self.conv1 = nn.Conv2d(input_channels, 64, kernel_size=7, stride=2, padding=3)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.fc = nn.Linear(64 * 56 * 56, output_channels)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

model = SimplePoseEstimator()
print(model)

4. 训练模型

定义损失函数、优化器，并编写训练循环。

criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 假设我们有一个小批量的输入和目标数据
batch_size = 8
input_data = torch.randn(batch_size, 3, 224, 224)  # 示例输入数据
target_data = torch.randn(batch_size, 16)          # 示例目标数据

# 将模型设置为训练模式
model.train()

for epoch in range(10):  # 进行10个epoch的训练
    optimizer.zero_grad()   # 清空梯度
    outputs = model(input_data)
    loss = criterion(outputs, target_data)
    loss.backward()         # 反向传播
    optimizer.step()        # 更新参数

    print(f'Epoch [{epoch+1}/10], Loss: {loss.item():.4f}')

5. 模型评估

在测试集上评估模型性能。这里我们使用均方误差（MSE）作为评价指标。

def evaluate_model(model, test_loader):
    model.eval()
    total_loss = 0
    with torch.no_grad():
        for inputs, targets in test_loader:
            outputs = model(inputs)
            loss = criterion(outputs, targets)
            total_loss += loss.item()
    avg_loss = total_loss / len(test_loader)
    print(f'Test Loss: {avg_loss:.4f}')

# 注意：这里的test_loader应该包含实际的测试数据
evaluate_model(model, test_loader)

6. 可视化结果

可视化预测的姿态与真实姿态之间的差异。

import matplotlib.pyplot as plt

def plot_pose_comparison(true_pose, pred_pose):
    fig, ax = plt.subplots(1, 2, figsize=(10, 5))
    ax[0].scatter(true_pose[:, 0], true_pose[:, 1])
    ax[0].set_title('True Pose')
    ax[1].scatter(pred_pose[:, 0], pred_pose[:, 1])
    ax[1].set_title('Predicted Pose')
    plt.show()

# 假设true_pose和pred_pose是形状为 (num_joints, 2) 的numpy数组
plot_pose_comparison(true_pose, pred_pose)