3D Human相关研究总结:人体、姿态估计、人体重建等

本文总结了3D人体相关的研究,涵盖3D表示方法,如voxel、point cloud和polygon mesh,以及3D人体模型SMPL和SMPL-X。3D人体姿态估计和重建任务,包括单张图像、视频和RGBD输入的挑战与进展。同时探讨了3D衣服建模和人体动作驱动技术,涉及数据获取、动作合成和驱动的现状与挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©PaperWeekly 原创 · 作者|张莹

单位|腾讯

本文简要介绍与 3D 数字人相关的研究,包括常用 3D 表示、常用 3D 人体模型、3D 人体姿态估计,带衣服 3D 人体重建,3D 衣服建模,以及人体动作驱动等。


常用3D表示

目前 3D 学习中,物体或场景的表示包括显式表示隐式表示两种,主流的显式表示包括基于 voxel、基于 point cloud、和基于 polygon mesh 三种,隐式表示包括基于 Occupancy Function [1]、和基于 Signed Distance Functions [2] 两种。下表简要总结了各种表示方法的原理及其相应优缺点。

1.1 Voxel

表示图像:

表示原理:体素用规则的立方体表示 3D 物体,体素是数据在三维空间中的最小分割单位,类似于 2D 图像中的像素。

优缺点:

+ 规则表示,容易送入网络学习
+ 可以处理任意拓扑结构
- 随着分辨率增加,内存呈立方级增长
- 物体表示不够精细
- 纹理不友好

1.2 Point Cloud

表示图像:

表示原理:点云将多面体表示为三维空间中点的集合,一般用激光雷达或深度相机扫描后得到点云数据。

优缺点:

+ 容易获取
+ 可以处理任意拓扑结构
- 缺少点与点之间连接关系
- 物体表示不够精细
- 纹理不友好

1.3 Polygon Mesh

表示图像:

表示原理:多边形网格将多面体表示为顶点与面片的集合,包含了物体表面的拓扑信息。

优缺点:

+ 高质量描述 3D 几何结构
+ 内存占有较少
+ 纹理友好
- 不同物体类别需要不同的 mesh 模版
- 网络较难学习

1.4 Occupancy Function

表示图像:

表示原理:occupancy function 将物体表示为一个占有函数,即空间中每个点是否在表面上。

优缺点:

+ 可以精细建模细节,理论上分辨率无穷
+ 内存占有少
+ 网络较易学习
- 需后处理得到显式几何结构

1.5 Signed Distance Function

表示图像:

表示原理:SDF 将物体表示为符号距离函数,即空间中每个点距离表面的距离。

优缺点:

+ 可以精细建模细节,理论上分辨率无穷
+ 内存占有少
+ 网络较易学习
- 需后处理得到显式几何结构


常用3D人体模型

目前常用的人体参数化表示模型为德国马克斯•普朗克研究所提出的 SMPL [3],该模型采用 6890 个顶点(vertices), 和 13776  个面片(faces)定义人体 template mesh,并采用 10 维参数向量控制人体 shape,24 个关节点旋转参数控制人体 pose,其中每个关节点旋转参数采用 3 维向量来表示该关节相对其父关节分别沿着 x, y, z 轴的旋转角。

该研究所在 CVPR 2019 上提出 SMPL-X [4],采用了更多顶点来精细建模人体,并加入了面部表情和手部姿态的参数化控制。这两篇工作给出了规范的、通用的、可以与工业 3D 软件如 Maya 和 Unity 相通的人体参数化表示,并提出了一套简单有效的蒙皮策略,使得人体表面的顶点跟随关节旋转运动时不会产生明显瑕疵。

近年来也有不少改进的人体模型,如 SoftSMPL [5],STAR [6],BLSM [7],GHUM [8] 等。

2.1 SMPL

基本表示:

  • mesh 表示:6890 vertices, 13776 faces

  • pose 控制:24 个关节点,24*3 维旋转向量

  • shape 控制:10 维向量

示意图:

2.2 SMPL-X

基本表示:

  • mesh 表示:10475 vertices, 20908 faces

  • pose 控制:身体 54 个关节点,75 维 PCA

  • 手部控制:24 维 PCA

  • 表情控制:10 维向量

  • shape 控制:10 维向量

示意图:


3D人体姿态估计

3D 人体姿态估计是指从图像、视频、或点云中估计人物目标的体型(shape)和姿态(pose),是围绕人体 3D 研究中的一项基本任务。3D 人体姿态估计是 3D 人体重建的重要前提,也可以是人体动作驱动中动作的重要来源。目前很多 3D 姿态估计算法主要是估计场景中人体的 SMPL 参数。

根据场景不同,可以分为针对单张图像和针对动态视频的人体 3D 姿态估计。下表简要总结了目前两种场景下的一些代表工作,并给出了一些简要原理介绍和评价。

3.1 单张图像

代表工作:

Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image. In ECCV, 2016.

End-to-end Recovery of Human Shape and Pose. In CVPR, 2018.

Learning to Estimate 3D Human Pose and Shape from a Single Color Image. In CVPR, 2018.

Delving Deep into Hybrid Annotations for 3D Human Recovery in the Wild. In ICCV, 2019.

SPIN: Learning to reconstruct 3d human pose and shape via model-fitting in the loop. In ICCV, 2019.
I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh E

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值