【Rodin学习笔记】A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

目录

摘要

引言

主要工作

Robust 3D Representation Fitting

Latent Conditioned 3D Diffusion Model

Diffusion Tri-plane Upsampler

应用

一些问题


摘要

提出一种3D生成模型:用diffusion自动生成3D数字虚拟人,并将其表征为神经辐射场。

生成高精度的数字人像对内存和成本要求很高,因此论文提出了roll-out diffusion network (Rodin)模型,把神经辐射场表达成2D特征图,并且将他们展开到二维平面再进行3D感知diffusion

  • 3D-aware convolution:通过映射关系,在2D特征上执行了3D卷积,提高效率;

  • latent conditioning:组织特征生成,使得全局连贯,可生成高保真虚拟人像,并可通过文本控制语义修改;

  • hierarchical synthesis:进一步增强细节;

引言

Rodin 主要由三个部分组成:

  • 3D-aware convolution:作用在tri-plane上,希望学习到3D特征关系;

  • latent conditioning:用训练数据集中的avatars,训练一个额外的图片编码器,提取语义隐向量,作为扩散模型的条件输入。当语义编辑时,本文使用权重冻结的CLIP图片编码器,该编码器和text prompts共享隐空间

  • hierarchical synthesis:首先生成低分辨率tri-plane(64 x 64),然后使用一个diffusion-based上采样,产生高分辨率(256 x 256)。训练diffusion upsampler时,细节是惩罚图片级别的损失。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值