GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架

e9429d481764b991e198257de7d01755.png

来源:机器之心
本文约2500字,建议阅读5分钟
南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了基于 Gaussian Splatting 的高质量 3D 人体快速重建 (1~2 分钟) 和实时渲染 (高达 189 帧每秒) 框架 GauHuman。GauHuman 可以基于用户输入的一段单目人体视频,以及相应的相机和人体动作体型(SMPL)参数,快速重建该 3D 人体,并实时渲染该 3D 人体。

5c84dc4903a931043f9debd5a861aa2c.png

  • 论文名称:GauHuman: Articulated Gaussian Splatting from Monocular Human Videos

  • 论文下载地址:https://arxiv.org/abs/2312.02973

  • 项目主页:https://skhu101.github.io/GauHuman

  • 代码开源:https://github.com/skhu101/GauHuman

图1 GauHuman可以快速重建(1~2分钟)和实时渲染(高达189帧每秒) 高质量3D人体。

背景

3D 数字人重建对于一系列应用场景,比如虚拟现实和辅助现实,有着非常大潜在性的影响。基于人体神经辐射场,现有方法可以从 sparse-view 的视频甚至单张图片中恢复出 3D 数字人。然而这些方法往往需要昂贵的计算时间(高达 10 小时)和资源去完成训练和渲染,极大限制了他们在现实场景中的应用。为了加速建模过程,可泛化三维人体建模方法采用预训练加微调(pretrain-finetune)的范式。这类方法通常需要几个小时的预训练去获取可泛化的 3D 人体表征,再对每一个 3D 数字人额外微调一个小时完成建模。由于这类方法依赖的输入图片只能提供有限的信息,3D 人体重建的质量还有待提升。另一类研究针对人体建模引入更加高效的 3D 人体表征,比如多精度的哈希表征(multi-resolution hash encoding)或者 neural volumetric primitives。多精度的哈希表征提升了训练收敛速度,但渲染速度限制了他们的实际应用;neural volumetric primitives 提升了渲染速度,但训练速度和最终渲染质量还有提升的空间。得益于 Gaussian Splatting 在静态和动态场景中的实时渲染特性,本方法针对单目人体视频提出基于 Gaussian Splatting 的快速训练(1~2 分钟)和实时渲染(高达 189 帧每秒)的 3D 人体建模框架。

173f6bb0ba30138d6b7e089abaeee800.png

图2 基于一段单目人体视频,GauHuman可以快速训练(1~2分钟)和实时渲染(高达189帧每秒)高质量的3D人体。

基本原理

利用 Gaussian Splatting 对单目人体视频中的 articulated 3D 人体进行建模,我们需要解决两个难点问题:1)如何将单目人体视频中的 articulated 3D 人体信息引入 Gaussian Splatting 的框架;2)如何实现高效优化 articulated Gaussian Splatting。针对以上的问题,一个比较容易想到的方案是利用 Gaussian Splatting 对标准空间(canonical space)下的 3D 人体进行建模,并利用线性蒙皮算法(Linear Blend Skinning, LBS)将 3D 高斯球从标准空间转换到目标空间,从而渲染得到目标空间下的图像并构建损失函数。以上方案存在的一个问题是线性蒙皮算法定义的是3D人体顶点(vertex)的旋转和偏移,如何从人体先验比如SMPL中不准确的LBS系数和姿态(pose)信息中去学习标准空间中3D高斯球的旋转和偏移仍是一个难点问题。此外,现有的 Gaussian Splatting 方法利用 Structure-from-Motion(SFM)或随机初始化产生的点云去初始化 3D 高斯球的中心坐标。这一初始化方式主要是针对静态场景设计,忽略了人体的结构信息,不适用于快速人体建模。针对建模过程中出现的 over-reconstruction 和 under-reconstruction 现象,Gaussian Splatting 论文提出分裂(split)和克隆(clone)的操作来动态控制 3D 高斯球的数目。尽管以上操作可以显著提升重建的质量,它也产生了大量数目的 3D 高斯球,限制了优化的效率并占用了大量的硬盘空间(比如对一个静态场景需要 734MB 的存储空间)。另一个值得关注的点是,现有的Gaussian Splatting框架包含了大量冗余的3D高斯球,留给了我们进一步提升优化效率的空间。

针对以上提到的一些难点问题,我们从建模框架和快速优化算法两个方面去考虑解决。【将单目人体视频中的 articulated 3D 人体信息引入 Gaussian Splatting 的框架】受到之前人体神经辐射场(Human NeRF)的启发,我们利用 Gaussian Splatting 对标准空间(canonical space)下的 3D 人体进行建模,并将 3D 高斯球从标准空间转换到目标空间。基于高斯函数的变换性质,我们可以通过 LBS 算法将 3D 高斯球从标准空间旋转和偏移变换到目标空间。以上变换涉及到如何估 LBS 系数的问题,直接用神经网络来估计 LBS 系数往往需要很长时间的优化,最后渲染得到的效果也是差强人意。为了快速得到较为准确的 LBS 系数,我们 1)基于 SMPL 的 LBS 系数,并利用神经网络来提供一个偏置值;2)对人体的姿态(pose)信息基于训练数据进行纠正。当渲染一张 1024p 的图片时,以上建模框只需要对有限数目(比如 13k)的 3D 高斯球进行滚雪球处理,然而之前的人体神经辐射场需要对整个 3D 空间内百万级的采样点就行体渲染操作。这极大降低了在训练和渲染中的计算资源耗费。【高效优化 articulated Gaussian Splatting】1)3D 高斯球初始化。我们利用 3D 人体先验比如 SMPL 对 3D 高斯球进行初始化,极大提升了优化的效率。2)分裂/克隆/合并。通过实验分析,我们发现分裂和克隆操作忽略了将3D高丝球之间距离作为度量指标。基于以上分析,我们引入3D高丝球的Kullback-Leibler (KL)散度去约束分裂和克隆操作。对于大量冗余的3D高斯球,我们提出了一个合并操作去有效减小这部分3D高斯球。3)剪枝。考虑到 3D 人体有着特定的结构,我们将远离 3D 人体的 3D 高斯球进行剪枝操作。基于以上的快速优化算法,我们可以用大约 13k 的 3D 高斯球(大约占用 3.5MB 的硬盘空间)在一到两分钟内完成对 3D 人体的建模。

c246ab58a1a8bc6202bb8b22bef0c486.png

图3 GauHuman框架原理图。GauHuman首先基于人体先验SMPL去初始化3D高斯球位置,紧接着基于LBS系数偏差和人体姿态纠正模块去学习3D高斯球从标准空间转换到目标空间的转换矩阵。在后续优化过程中,GauHuman基于tile的可微分渲染器去快速渲染图片,并利用人体先验和KL散度去约束分裂,克隆,合并和剪枝操作,以达到有效控制3D高斯球数目的目的。

结果比较

本文在ZJU_MoCap和MonoCap两个单目人体数据集上进行了实验。该研究对比了对比了多个先进的3D人体重建方法:NB,AN, AS, HumanNeRF, DVA, InstantNVR, InstantAvatar, PixelNeRF和NHP,并在peak signal-to-noise ratio (PSNR),structural similarity index (SSIM),以及Learned Perceptual Image Patch Similarity (LPIPS)指标上进行了比较。如下图所示,GauHuman可以快速重建(1~2分钟)和实时渲染(高达189帧每秒) 3D人体,并在性能指标上超越了之前的方案。

fd71d991d0d9c49fd7e4f9ff6c396272.png

3D 人体 Novel View Synthesis 结果如下图所示:

图4 ZJU_MoCap上Novel View Synthesis结果比较图

图5 MonoCap上Novel View Synthesis结果比较图

应用前景

在游戏电影制作,虚拟现实增强现实或者其他需要数字人建模的场景,用户可通过输入一段单目人体视频,以及该角度下相机的参数和相应的人体动作体形参数(SMPL),就可以达到重建该 3D 数字人的目的。

结语

本文提出一种基于 Gaussian Splatting 的高质量 3D 人体快速重建 (1~2 分钟) 和实时渲染 (高达 189 帧每秒) 框架 GauHuman。可以承认的是,本文依然存在一定的缺陷。首先,如何从 3D 高斯中提取人体 mesh 还有待进一步研究。其次,从单目人体视频中恢复 3D 人体细节,比如说衣服皱褶,依旧是一个很难的问题。一个可行的方案是在 3D 人体重建中引入衣物物理仿真模型。最后,我们的代码已经全部开源,欢迎大家下载玩耍!

编辑:文婧

9be5660a0b361c45e4fb3197eb591de3.png

<think>好的,用户想寻找与3D高斯点绘技术相关的招聘信息。首先,我需要明确3D Gaussian Splatting的具体应用领域技术特点,这样才能知道哪些行业或公司可能招聘相关人才。 根据提供的引用资料,3D Gaussian Splatting在SLAM(同步定位与地图构建)自动驾驶中有应用,比如Gaussian-SLAM项目实现了高真实感的密集SLAM[^1]。此外,该技术也用于三维显式几何表达,与传统的三角网格相比,能避免维度爆炸问题,适合需要高效渲染的场景,如游戏虚拟现实[^3]。还有复现该技术需要安装FFmpeg等工具,可能涉及计算机图形学开发[^4]。 接下来,我应该考虑用户可能的背景。用户可能具备计算机图形学、计算机视觉或相关领域的知识,正在寻找职位。他们可能需要具体的招聘平台、公司或技能建议。用户可能没有明确说出的是,他们想了解如何提升自己的竞争力以申请这些职位,或者哪些公司正在积极采用这项技术。 然后,需要生成相关问题,帮助用户进一步探索。比如,技术应用领域、所需技能、招聘平台、公司类型以及如何提升竞争力。这些问题应该覆盖用户可能关心的各个方面,而不仅仅是直接回答招聘信息。 最后,确保回答结构清晰,引用正确,并且使用正确的中文LaTeX格式。比如,提到均值$\mu_x, \mu_y, \mu_z$标准差$\sigma$时使用行内公式[^2],保持专业性的同时易于理解。</think>### 关于3D高斯点绘技术(3D Gaussian Splatting)的招聘信息与建议 #### 技术应用与行业需求 3D高斯点绘技术(3D Gaussian Splatting)是一种基于概率分布的三维数据表达与渲染方法,其核心是通过高斯分布(如均值$\mu_x, \mu_y, \mu_z$标准差$\sigma$)描述三维空间中的数据分布。相比传统的三角网格,它能更高效地处理密集数据渲染,并避免维度爆炸问题,因此在以下领域有广泛应用: 1. **SLAM与自动驾驶**:用于高真实感地图构建(如Gaussian-SLAM项目)[^1]。 2. **游戏与虚拟现实**:替代传统三角网格,提升渲染效率与视觉效果[^3]。 3. **计算机图形学开发**:涉及复现与优化技术(如依赖FFmpeg等工具链)。 #### 招聘信息获取渠道 1. **科技公司官网**: - **自动驾驶领域**:Waymo、Cruise、特斯拉等公司的计算机视觉/三维重建相关岗位。 - **游戏与VR/AR领域**:Unity、Epic Games(Unreal Engine)、Meta(Reality Labs)等。 - **图形学工具开发**:NVIDIA(Omniverse)、Autodesk等。 2. **专业招聘平台**: - **LinkedIn**:搜索关键词“3D Gaussian Splatting”“Point-Based Rendering”“Neural Rendering”。 - **Glassdoor/Indeed**:关注“Computer Vision Engineer”“3D Graphics Researcher”等职位。 - **学术与工业界会议**:SIGGRAPH、CVPR等会议的招聘板块。 3. **学术界与开源社区**: - 参与开源项目(如3D Gaussian Splatting复现)可接触相关团队。 - 高校实验室(如计算机图形学/机器人方向)可能招聘研究人员。 #### 技能要求(典型岗位) - **核心技术**:熟悉3D高斯点绘原理、概率模型优化、实时渲染算法。 - **编程能力**:C++/Python、CUDA/OpenGL、PyTorch/TensorFlow。 - **工具链**:FFmpeg、点云处理库(Open3D、PCL)。 - **加分项**:SLAM/自动驾驶项目经验、SIGGRAPH/CVPR论文。 #### 示例岗位(虚构) ```plaintext 职位名称:3D渲染算法工程师 公司:某自动驾驶科技公司 要求: 1. 开发基于3D Gaussian Splatting的高效地图渲染系统。 2. 优化高斯分布参数(μ, σ)的实时计算性能[^2]。 3. 与SLAM团队协作,提升稠密地图重建精度[^1]。 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值