【人脸】
[2024] Single Image, Any Face: Generalisable 3D Face Generation
论文链接:https://arxiv.org/pdf/2409.16990
代码链接:【无】
从单张非约束图像创建3D人脸头像是许多现实世界视觉和图形应用的基础任务。尽管生成模型已取得显著进展,但现有方法要么在设计上不适合人脸,要么无法从限制性训练域推广到非约束的人脸图像
。为了解决这些局限性,文中提出了一种新颖的模型Gen3D-Face,该模型能够在多视图一致性扩散框架内从非约束的单张图像输入生成3D人脸。给定特定的输入图像,所提模型首先生成多视图图像,然后进行神经表面构建。为了以一种可推广的方式纳入面部几何信息,利用输入条件化的网格估计,而不是真实网格,并结合合成的多视图训练数据。重要的是,作者引入了一种多视图联合生成方案,以增强不同视图间的外观一致性。这是第一次尝试并设立基准,用于从单张图像创建跨领域的通用人类对象的逼真3D人脸头像。大量实验表明,该方法在跨域单张图像3D人脸生成方面优于之前的替代方法,并且在域内设置中处于领先地位。
[WACV 2025] Cascaded Dual Vision Transformer for Accurate Facial Landmark Detection
论文链接:https://arxiv.org/pdf/2411.07167
代码链接:【无】
实验结果:
【视频生成】
[2024] Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
论文链接:https://loopyavatar.github.io/
代码链接:https://loopyavatar.github.io/
随着基于扩散的视频生成技术的引入,音频驱动的人类视频生成在运动自然性和肖像细节合成方面最近取得了显著突破。由于音频信号在驱动人体运动方面的控制有限,现有方法通常添加辅助空间信号来稳定动作,这可能会影响运动的自然性和自由度
。这篇论文提出了一种端到端的仅音频条件化视频扩散模型,名为Looper。具体来说,作者设计了一个片段间和片段内的时间模块以及一个音频到潜在变量的模块,使模型能够利用数据中的长期运动信息学习自然的运动模式,并提高音频与肖像运动的相关性。这种方法消除了现有方法中使用手动指定的空间运动模板来约束推理过程中的运动需求。广泛的实验表明,Looper优于近期的音频驱动肖像扩散模型,在不同场景下提供了更逼真、高质量的结果。
实验结果: