使用音频的肖像图像动画已经迅速发展,使得创建越来越真实和富有表现力的动画面孔成为可能。这种多模态引导的视频生成任务的挑战在于融合各种模态的同时确保时间和肖像的一致性。为了解决这些挑战,
清华大学、腾讯AI Lab、中科院自动化所、南京理工大学联合提出了LetsTalk(基于 DiT 的人脸肖像动画),这是一种融合模块化时间和空间注意力机制的扩散变换器,以合并多模态并增强时空一致性。为了处理多模态条件,作者首先总结了三种融合方案,从浅层到深层融合紧凑性,并全面探索它们的影响和适用性。然后根据图像、音频和视频生成的模态差异提出了一种合适的解决方案。对于面部形态特征,作者利用深层融合方案(共生融合)来确保面部的一致性。对于音频,作者实施浅层融合方案(直接融合),以实现音频-动画对齐的同时保持多样性。扩展实验表明,文章所提出的方法能够生成具有增强多样性和生动性的时间上连贯且逼真的视频。
● 文章题目:LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis
● 论文链接:https://arxiv.org/pdf/2411.16748
● 项目主页:https://z