论文标题:
HUGS: Human Gaussian Splats
论文作者:
Muhammed Kocabas, Jen-Hao Rick Chang, James Gabriel, Oncel Tuzel, Anurag Ranjan
项目链接:
https://github.com/apple/ml-hugs
导读:
在AR和VR领域,重建逼真的虚拟人体化身始终是一项挑战,特别是因为人体化身以及其衣物、皮肤和头发等都会经历复杂的非刚性形变。
(Avatar,电影阿凡达的英文名即为Avatar,重建虚拟的人体化身是否和通过神经连接化身阿凡达有相似之处呢~)
一种常见的重建技术是利用时间编码的方法,通过一个多层感知机(MLP)学习基于时间变化的3DGS表达。然而,这种方法通常只能重现已有视角下的人体姿态。而在AR和VR的多变应用场景中,如何从有限的视角数据中学习并生成全新的人体姿态3DGS表达,成为了一个亟待解决的问题。这正是HUGS研究的核心创新之处。©️【深蓝AI】编译
1. 背景简介
在真实感渲染和人体动画领域,逼真地呈现人体在各种应用中是至关重要的,比如增强现实/虚拟现实(AR/VR)、视觉效果、虚拟试穿、电影制作等。
早期创建人体化身的方法通常依赖于使用多摄像机捕捉设置来获取高质量数据,这不仅需要大量的计算资源,还需要大量的人工操作。最近的研究通过直接从视频中生成三维化身来解决这些问题,使用了像SMPL(Skinned Multi-Person Linear Model)这样的三维参数化身体模型。这些模型不仅提供了高效的光栅化能力,还能够适应未见过的变形。然而,这些模型固有的拓扑结构限制了其在模拟服装、复杂发型和其他细节方面的能力。
▲图1|HUGS全文梗概图示©️【深蓝AI】编译
针对上述局限性,最近的研究开始利用神经辐射场来建模三维人体化身,这种方法常常结合使用参数化身体模型作为变形的支撑结构。神经场在捕捉衣服、配饰和头发等细节方面表现出卓越的能力,其成果超过了参数化模型仅用纹理和其他属性进行光栅化的效果。尽管如此,神经辐射场模型在训练和渲染时效率较低,并且其变形处理复杂,通常需要依赖效率不高的寻根循环,这对训练和渲染时间都有不利影响。
为应对这些挑战,HUGS引入了一种名为HUGS—Human Gaussian Splats的新型化身表示法。HUGS通过3D Gaussian Splatting技术提升了与传统隐式NeRF表示相比的训练和渲染速度。3DGS的显式表示不仅允许对人体变形进行精细控制,还带来了新的问题。特别是,真实感动画需要精确协调各个高斯以保持表面的完整性,防止产生裂缝或突出。HUGS的新型变形模型在规范空间(canonical space)使用3DGS表示人体,通过预测3DGS的平均偏移、旋转和缩放来适应主体的具体身体形状。此外,变形模型还预测了用于将规范人体变形为最终姿势的线性混合蒙皮(LBS)权重。HUGS不仅能够模拟超出SMPL模型能够表示的几何和外观细节,如头发和衣服,而且在动画过程中也能协调高斯的移动。HUGS是在单一单镜头视频上训练的,能学习人和场景的独立表现,能够建模化身在不同场景中以不同姿态出现的三维模型。
HUGS的创新点在于:
● 提出了一种新颖的前向变形模块,该模块使用3DGS在规范空间中表示目标人体,并学习使用LBS将其动画化到未观测的姿态,从而实现新姿态合成。
●HUGS能够快速创建和渲染从野外单眼视频中的人体化身,仅需30分钟训练时间即可处理50-100帧,较以往的方法训练速度提高约100倍,同时可以每秒60帧的速度在高清分辨率下渲染。
● HUGS在NeuMan数据集和ZJU-Mocap数据集上达到了十分SOTA的重建质量。
2. 方法
方法部分笔者将分为主要方法和优化策略两个部分来讲解,在主要方法部分笔者着重介绍如何实现新颖的新姿态合成,而优化策略则是本文算法能够成功实现的重要因素,这一板块将重点介绍。
▲图2|HUGS的方法流程©️【深蓝AI】编译
■2.1 主要方法
HUGS的作者团队数学功底极强,在原文中作者对方法中大量的内容使用了数学定义,这部分内容读起来十分晦涩,需要有很强的相关背景才能看懂。笔者在这里尽可能简化这部分的数学表达,将抽象的数学定义通过文字提炼出来,方便大家理解~首先,给定多张捕获的图像及其相机姿态,HUGS使用预训练的SMPL回归器估计每张图像的SMPL姿态参数和跨图像共享的身体形状参数。HUGS用三维高斯表示人体,并通过学习到的线性混合皮肤(LBS)来驱动这些高斯。HUGS输出高斯的位置、旋转、尺度、球谐函数系数及其相对于多个关节的LBS权重。
▲图3|新姿态合成的过程©️【深蓝AI】编译
人体高斯在规范空间中被构建,该空间是SMPL的一个姿态空间,人体网格执行预定义的Da-pose。在渲染过程中,给定一个关节配置,为了渲染一张图像,对于每个高斯,HUGS首先在其中心位置进行三层平面插值,得到特征向量。这些特征向量的连接表示高斯的特征。利用这些特征,一个外观MLP输出高斯的RGB颜色和不透明度;一个几何MLP输出中心位置的偏移、旋转矩阵和三个轴的缩放;一个变形MLP输出该高斯的LBS权重。LBS使用权重和关节变换来变换人体高斯,随后与场景高斯结合,并投影到图像平面上。HUGS的渲染过程是端到端可微分的。从这里可以看到,HUGS实现新姿态生成的主要技术手段就是使用了SMPL+LBS作为权重,对3DGS的各个属性进行了改变,而这两个权重都是可学习的,在整个训练过程中不断优化,HUGS将3DGS的各个属性作为了特征平面与权重叠加在一起,从而实现了稳定的新姿态生成。
■2.2 优化策略
HUGS的优化过程十分有趣,这部分的优化包含了多个损失函数,以及一个与mask有关的单独人体渲染,接下来介绍优化的核心部分。HUGS优化了高斯的中心位置、特征三层平面和三个MLP的参数。渲染出的图像与真实捕获的图像进行比较,使用L1损失、结构相似性损失和感知损失进行评估。HUGS还渲染了一个只有人类的图像(仅在随机纯色背景上使用人类高斯),并比较真实图像中包含人类的区域的损失。这些人类区域是通过预训练的分割模型获得的。HUGS还使用L2损失对学习到的LBS权重进行规范化,使其接近SMPL的权重。
为了规范化LBS权重,HUGS对每个高斯检索其在SMPL网格上最近的六个顶点,并取其LBS权重的距离加权平均值得到预测权重。损失是LBS权重与预测权重之间的L2范数。HUGS采用Adam优化器进行优化,使用余弦学习率调度方案。在优化的初始阶段,HUGS预训练特征三层平面和MLP以输出固定的RGB颜色和透明度,同时初始化旋转和缩放参数以及LBS权重,保证高斯精确对齐于SMPL模型的顶点。
在优化过程中,类似于标准的3DGS,HUGS每隔数百次迭代就会克隆、分裂和修剪高斯,以避免在优化过程中陷入局部最小值。为了克隆和分裂,HUGS在高斯中心位置列表中增加新的条目,通过重复现有中心或根据其当前形状随机采样。为了修剪高斯,HUGS从列表中移除它。因为新高斯的中心接近原始高斯的中心,所以它们的特征相似,这使得优化过程可以正常进行。每次分裂高斯时,HUGS都会调整高斯的基础尺寸。整个优化过程包括数千次迭代,最终在一台高性能GPU上完成。优化结束时,人体就会由大量的高斯精确表示。
3. 实验效果与分析
由于本文实现的SOTA效果,作者进行了大量的对比实验。
原作大佬恨不得把所有其他方法在所有数据集上都“揍”一遍,这就是HUGS的底气。
笔者在这里主要介绍本文中的定量和定性对比实验结果和相关的分析内容:
■3.1 数据集选择
HUGS选择的主要数据集是NeuMan Dataset和ZJU-MoCap Dataset(选择了我们国人的数据集还是蛮自豪的,来自中国的研究也越来越受到国际学界的重视和认可了)。
■3.2 数值对比定量实验
▲图4|数值对比实验结果©️【深蓝AI】编译
图4中展示了方法的定量结果,在图4(表1)中,HUGS使用峰值信噪比(PSNR)、结构相似性(SSIM)和感知图像质量评估(LPIPS)来评估NeuMan数据集上的重建质量。NeRF-T和HyperNeRF是通用的动态场景重建方法,不专门针对人类。因此,它们的重建质量较差。另一方面,NeuMan和Vid2Avatar采用专门为人类和场景设计的模型。NeuMan采用基于NeRF的方法进行场景和人类建模。
Vid2Avatar则使用隐式的SDF模型和体积渲染来表示场景和人类。因此,NeuMan和Vid2Avatar展示了改进的重建质量。相比之下,HUGS在所有场景和指标中均达到了最先进的性能。
在表2中,HUGS进一步评估了只包含人类区域的重建误差。HUGS首先在地面真实图像中紧密裁剪出人类区域。此裁剪在所有预测中使用,并在裁剪样本上评估重建误差。应当注意的是,HUGS对该区域进行了矩形裁剪,并未使用任何分割掩模,因为重建度量对掩模非常敏感。在这种评估下,HUGS在所有场景和指标中均展示了最先进的性能,除了在Jogging序列的PSNR上展示了具有竞争力的表现。
■3.3 重建可视化定性实验
在图5中,与Vid2Avatar 和NeuMan 进行了定性比较。结果取自NeuMan数据集的测试样本,这些样本在训练中未被展示。在场景背景区域,HUGS显示出比Vid2Avatar和NeuMan更好的重建质量。Vid2Avatar的场景重建显示出模糊和多处瑕疵。相较之下,虽然NeuMan场景重建质量更佳,但缺失了许多细节,例如第一行放大部分的房屋编号、第二行的木板以及第三行的橱柜。HUGS则成功保留了这些放大区域中的细节,显示出卓越的重建质量。
在人物区域,Vid2Avatar的手部区域(第一行)显示出瑕疵,并在脚部(第二行)和手臂区域(第三行)重建模糊。而NeuMan虽在某些案例中(第二行)较好地重建了脚部细节,但在手(第二行)和脚(第三行)区域也产生了瑕疵。HUGS则精确保留了手和脚周围的细节,显著提升了重建质量。此外,HUGS还准确再现了衣物结构(第一行),如皱纹和拉链等细节,重建效果优于前述方法。
▲图5|对比实验可视化,可以看到HUGS和其他SOTA相比,的确有更强大的重建能力©️【深蓝AI】编译
▲图6|高速运动下的人体建立,可以看到HUGS对于运动人体也有很好的重建能力©️【深蓝AI】编译
4. 总结
通过这篇文章,我们能够更深入地了解如何利用3DGS技术实现“新姿态”合成。
这是一个极具前瞻性的技术,在整个三维重建领域中占有独特的地位。多数现有方法专注于静态场景的重建,仅有少数能较好地处理动态场景。然而,这些方法基本上只能再现已经“见过”的事物。相较之下,“新姿态”合成技术能够创造出“未见过”的内容,这为整个三维重建的流程提出了更高的要求。本文介绍的HUGS技术,由Apple提出,为未来的研究奠定了基础,预示着将有更多相关工作的出现。
花絮:笔者在电脑上复现了这份工作,真的非常有趣,强烈建议有兴趣的各位进行尝试,项目链接可以在文章的开头找到✌️
编译|阿豹
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。