AvatarMe: Realistically Renderable 3D Facial Reconstruction “in-the-wild”

最新推荐文章于 2024-06-21 10:16:16 发布

理想很丰满，现实很骨感

最新推荐文章于 2024-06-21 10:16:16 发布

阅读量3.8k

点赞数 1

分类专栏： # 单视图三维人脸重建文章标签： 3d 计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qq_43420530/article/details/122535224

版权

单视图三维人脸重建专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种名为AvatarMe的方法，该方法首次实现了从单一野生图像重建高真实感三维人脸。通过自制的RealFaceDB数据集和改进的pix2pixHD架构，AvatarMe能够提取出高分辨率的真实感纹理和几何细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

本文发表于CVPR2020，从野生图像中，缺乏相关的方法能够生成高分辨率、真实感的三维人脸，主要原因是：

缺乏可用的训练数据
即使有高分辨率数据，也缺乏具有鲁棒性的方法

本文提出的AvatarMe方法，是第一种能够基于单张的野生的图像，重建真实感三维人脸的方法，这里着重注意是真实感渲染，即PBR，和普通的渲染不一样

方法

首先本文自行制作了个数据集，称作RealFaceDB，人脸采用了和LSFM相似的拓扑结构，共采集200个人脸*7个表情，然后将人脸的组成元素分解为四个部分：
在这里插入图片描述
分别是diffuse albedo, specular albedo, diffuse normal, specular normal, 这四个纹理图加上人脸的形状就可以进行真实感三维人脸渲染了

采集好数据后，对于野生人脸图像，本文三维重建方法如下图所示：

使用GANFIT方法，先得到人脸的形状与纹理，这个形状其实就是3DMM形状系数，纹理是一张 $576 * 384 * 3$ 的图像，是一张光照烘焙过后的人脸纹理图，而具体来源则是PGGAN网络训练的时候学习到的LSFM数据集人脸纹理的先验
有了这张看似高分辨率的图像还不够，为了满足艺术家的创作需求，继续使用RCAN这个超分辨率网络将 $576 * 384 * 3$ 变为 $4608 * 3072 * 3$
光照烘焙的人脸纹理图已经储存了人脸的高光与阴影信息，肯定无法用于真实感人脸渲染的，因此就要想方设法将光照与人脸albedo分离(de-lighting)，于是本文仔细分析了GANFIT训练时的LSFM数据集，将其中的光照条件进行建模，然后训练一个图像-图像的转换网络光照分离出来，在训练的过程中，其实人脸的形状肯定是会对结果产生影响的，因此将人脸的形状也考虑的进去
所谓的de-lighting与后续的推断diffuse和specular的任务，其实都可以看做是domain adaptation problems，本文使用pix2pixHD这个架构，这个架构在高分辨率的图像-图像转换任务上取得了比较优秀的效果（具体原理在原文有阐释，这里不再做深入探讨，只是大致知道用什么东西做了什么事情就足够了）
但是用这种方法有个问题，因为采用的是高分辨率（超过4K）的图像数据，即使显存是32G都是不够的，因此采用了分割成小的patch的训练策略