DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video Generation
题目:DaGAN++: 用于生成会说话的头部视频的深度感知生成对抗网络
作者:Fa-Ting Hong; Li Shen; Dan Xu
源码:https://github.com/harlanhong/CVPR2022-DaGANGitHub
摘要
目前,关于生成会说话的头像视频的主要技术大多依赖于2D信息,包括输入面部图像中的面部外观和运动。然而,密集的3D面部几何信息,如像素级深度,在构建精确的3D面部结构和抑制复杂背景噪声方面起着关键作用。然而,获取面部视频的密集3D注释成本极高。在本文中,首先,我们提出了一种新的自监督方法,用于从面部视频学习密集的3D面部几何(即深度),无需在训练中使用相机参数和3D几何注释。我们进一步提出了一种策略,通过学习像素级不确定性来感知更可靠的刚体运动像素,以便于几何学习。其次,我们设计了一个有效的几何引导的面部关键点估计模块,为生成运动场提供准确的关键点。最后,我们开发了一个3D感知的跨模态&#