[CVPR‘23] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 deg

zzl_1998

已于 2023-07-10 15:56:24 修改

阅读量1.6k

点赞数 2

文章标签： 3d

于 2023-07-10 00:21:29 首次发布

本文链接：https://blog.csdn.net/qq_40731332/article/details/131622651

版权

PanoHead是一个创新方法，能用单视图‘野生’图像生成360度3D人像。它解决了GANs在非受控环境下的局限，提出了两阶段自适应图像对齐来处理相机参数不确定性，使用三网格神经体积表示解决镜像脸问题，并通过前景感知三鉴别器将人像从背景中解耦。实验表明，这种方法在生成质量和多视角一致性方面有显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文｜项目

总结：

任务：3D human head synthesis
现有问题：GANs无法在「in-the-wild」「single-view」的图片情况下，生成360度人像
解决方案：1）提出了two-stage self-adaptive image alignment，用于robust 3D GAN training；2）提出了tri-grid neural volume representation，用于解决头后镜像脸的问题；3）提出了foreground-aware tri-discriminator，用于将人像从背景中解耦出来。

引言

方法

Foreground-Aware Tri-Discrimination

Feature Disentanglement in Tri-Grid

Self-Adaptive Camera Alignment

Qualitative Comparisons

Single-view GAN Inversion

引言

为了生成不同形状和外观的3D heads：

传统方法（显示方法）使用参数化textured mesh model，可以单张出Avatar，然而渲染的图片细节较差，效果不好；
隐式方法效果不错，但这些方法通常需要多视角图片或3D scan supervision，同时由于采集自受控环境，生成Avatar的外观分布有限；
3D GAN（EG3D）可以使用「in-the-wild」「single-view」图片生成人像，然而这些方法通常只能产生near-frontal views。
因此，本文提出PanoHead，是第一个可以使用「in-the-wild」「single-view」图片，生成360度3D人像的方法；

拓展EG3D用于生成360度3D人像，存在下列挑战：

3D GANs很难将前景和背景分开，背景通常被表示为墙，阻碍了大角度的渲染。针对这个问题，本文提出了foreground-aware tri-discriminator，通过使用2D image segmentation的先验知识，将前景从3D space中分离出来；
对360度相机位姿来说，tri-plane引入了很强的映射歧义，导致在头后产生镜像脸（mirrored face）。针对这个问题，本文提出了tri-grid volume representation将前景特征解耦出来；
对3D GANs来说，获得「in-the-wild」头后图片的相机外参是很困难的。同时，由于对头后关键点检测效果较差，前脸和头后图像的image alignment也存在差异。这种alignment gap会导致显示噪声和头部形状较差。针对这个问题，本文提出了two-stage alignment scheme，使得image alignment保持视觉一致。同时，本文还提出一种相机自适应模型（camera self-adaptation module），动态调整渲染相机的位置，以缓解alignment gap的问题。

综上，本文贡献如下：

第一个可以使用「in-the-wild」「single-view」图片，生成360度3D人像的方法；
提出一种tri-grid formulation，用于解决头后的镜像脸问题；
提出一种tri-dricriminator：将3D前景头像从2D人造背景中解耦出来；
提出一种two-stage image alignment scheme，缓解不正确的camera poses和alignment gap，改善3D GAN在「in-the-wild」图片上的训练

方法

三个问题阻碍了EG3D渲染出360度人像：1）前景和背景无法解耦阻碍了大pose的渲染；2）tri-plane存在归纳偏置，导致在头后渲染出人脸；3）相机外参不准确和alignment gap问题。针对这三个问题，本文分别提出了解决方案。

Foreground-Aware Tri-Discrimination

由于无法将前景从背景中解耦出来，会导致生成2.5D人像（下图a）。增加侧脸或头后图片可以建立完整的几何结构，提供合理的头后形状。然而，这并不能解决问题，因为tri-plane本身就不是设计用来从背景中分离前景；

因此，本文提出一中foreground-aware tri-discriminator。具体来说，tri-discriminator的输入有7个通道，包含bilinearly-upsampled RGB图片，super-resolved RGB图片和single-channel upsampled foreground mask。