清华团队提出CharacterGen,已收录siggraph 2024
项目链接:https://charactergen.github.io/
论文链接:https://arxiv.org/pdf/2402.17214.pdf
代码链接:https://github.com/zjp-shadow/CharacterGen
CharacterGen:基于多视图姿态规范化的单图像高效3D角色生成 提出了一种新的框架CharacterGen,能够从单张图像生成高质量的3D角色,并将复杂姿态转化为标准的“人体A姿态”。
1. 背景
随着数字内容产业的迅速发展,3D内容的创作已成为电影、电子游戏、虚拟现实等领域中的关键技术。然而,手动建模3D角色需要大量的时间和人力投入。基于单图像生成3D模型的研究能够降低3D内容创作的门槛,并赋予普通用户创作高质量3D模型的能力。然而,3D角色的姿态通常非常复杂,存在自遮挡问题,这增加了从单张图像生成高质量3D角色的难度。现有的单视图3D生成技术对多样化姿态的处理仍存在挑战,特别是对于风格化角色(如动漫角色),其夸张的比例和复杂的服饰设计进一步增加了生成难度。
2. 贡献
这篇文章的贡献可以总结为以下几点:
- 提出了一种基于图像条件的扩散模型,能够将任意输入姿态转换为标准的“人体A姿态”,并生成一致的多视图图像,有效解决了自遮挡问题和姿态歧义问题。
- 提出了一个结合扩散模型和基于Transformer的稀疏视图重建模型的简化生成流程,能够高效地将单视图图像转化为详细的3D角色模型。
- 构建了一个包含13,746个动漫角色的多视图数据集Anime3D,用于训练和评估模型,为未来3D角色生成研究提供了丰富的资源。
3. 框架
CharacterGen的生成框架分为两个主要步骤:
- 多视图生成与姿态规范化:从输入的单视图图像中生成多个视角的规范姿态图像。这是通过图像条件的多视图扩散模型来完成的,模型将输入的复杂姿态规范化为“A姿态”,同时生成四个方向(前、后、左、右)的视图图像,确保不同视角下的图像一致性。
- 3D角色重建:从生成的多视图图像中重建3D角色模型。该过程采用基于Transformer的稀疏视图重建模型,生成粗糙的3D几何体和纹理,随后通过纹理反投影策略优化纹理质量,最后得到高质量的3D角色模型。
4. 方法详细介绍
4.1 Anime3D数据集
为了增强模型对3D角色的理解能力,文章创建了Anime3D数据集。该数据集包含13,746个风格化的动漫角色,通过多个视角和姿态渲染生成图像对。输入图像分为规范的A姿态和随机姿态,并通过Mixamo动画库引入多样化的动作(如坐姿、走路等)。这些数据对扩散模型的训练至关重要,有助于模型学习如何将不同姿态转换为标准姿态。
4.2 多视图图像生成与姿态规范化
为了生成一致的多视图图像,文章提出了IDUNet和多视图UNet的联合架构:
- IDUNet:这个网络旨在从输入图像中提取像素级的外观特征,并将其传递给多视图UNet,以确保生成的四个视角图像具有一致的外观和细节。
- 多视图UNet:负责在生成的过程中保持四个视角图像的空间一致性。该网络通过自注意力模块在四个视角之间捕捉全局关系,确保在不同视角下生成的图像一致。
4.3 3D角色生成
在生成四视图图像后,CharacterGen采用基于Transformer的稀疏视图重建模型来生成3D角色模型:
- 初始几何体重建:首先使用NeRF表示生成角色的粗糙几何体和纹理。
- 纹理反投影优化:通过将生成的四视图图像反投影到3D角色的UV纹理空间,并使用深度测试来去除被遮挡的像素点,进一步优化角色的纹理质量。最后通过泊松融合来减少纹理接缝问题。
5. 实验
文章进行了多项实验,评估了CharacterGen在2D多视图生成和3D角色生成上的效果:
- 2D多视图生成实验:与Zero123和SyncDreamer等现有方法进行对比,评估在姿态规范化和图像一致性上的表现。实验结果表明,CharacterGen能够生成更一致的多视图图像,并且在复杂姿态下表现出色。
- 3D角色生成实验:与Magic123和ImageDream等方法进行3D角色生成的对比实验,评估在几何质量和纹理质量上的表现。实验结果显示,CharacterGen生成的3D角色在几何结构和纹理细节上具有明显优势,特别是在难以观察的视角部分表现尤为出色。
6. 结果
CharacterGen的生成效果在定量和定性评估中都表现出色:
- 定量结果:文章通过结构相似性(SSIM)、感知损失(LPIPS)、弗雷歇距离(FID)和切夫距离(CD)等指标进行评估,CharacterGen在2D和3D任务中的表现均优于其他基线方法。
- 生成速度:CharacterGen的3D角色生成速度显著快于其他方法,生成一个3D角色只需约1分钟,而其他方法通常需要几十分钟甚至更长时间。
7. 可视化
项目通过大量的可视化对比展示了CharacterGen的生成效果:
- 2D多视图生成:可视化展示了CharacterGen与其他方法的对比效果,CharacterGen能够生成更一致、更高质量的多视图图像。
- 3D角色生成:展示了生成的3D角色模型的几何体和纹理细节,CharacterGen生成的角色外观精致,并且在各个视角下都保持一致性。还展示了生成的角色模型可以进行动画绑定并用于实际的动画场景中。
总结
CharacterGen提出了一种高效的从单图像生成3D角色的框架,通过多视图姿态规范化和3D重建,解决了复杂姿态下的生成难题,并且生成结果适合后续的动画和绑定应用。