目录
Robust 3D Representation Fitting
Latent Conditioned 3D Diffusion Model
摘要
提出一种3D生成模型:用diffusion自动生成3D数字虚拟人,并将其表征为神经辐射场。
生成高精度的数字人像对内存和成本要求很高,因此论文提出了roll-out diffusion network (Rodin)模型,把神经辐射场表达成2D特征图,并且将他们展开到二维平面再进行3D感知diffusion。
-
3D-aware convolution:通过映射关系,在2D特征上执行了3D卷积,提高效率;
-
latent conditioning:组织特征生成,使得全局连贯,可生成高保真虚拟人像,并可通过文本控制语义修改;
-
hierarchical synthesis:进一步增强细节;
引言
Rodin 主要由三个部分组成:
-
3D-aware convolution:作用在tri-plane上,希望学习到3D特征关系;
-
latent conditioning:用训练数据集中的avatars,训练一个额外的图片编码器,提取语义隐向量,作为扩散模型的条件输入。当语义编辑时,本文使用权重冻结的CLIP图片编码器,该编码器和text prompts共享隐空间
-
hierarchical synthesis:首先生成低分辨率tri-plane(64 x 64),然后使用一个diffusion-based上采样,产生高分辨率(256 x 256)。训练diffusion upsampler时,细节是惩罚图片级别的损失。