LetsTalk:基于 DiT 的人脸肖像动画

使用音频的肖像图像动画已经迅速发展,使得创建越来越真实和富有表现力的动画面孔成为可能。这种多模态引导的视频生成任务的挑战在于融合各种模态的同时确保时间和肖像的一致性。为了解决这些挑战,
清华大学、腾讯AI Lab、中科院自动化所、南京理工大学联合提出了LetsTalk(基于 DiT 的人脸肖像动画),这是一种融合模块化时间和空间注意力机制的扩散变换器,以合并多模态并增强时空一致性。为了处理多模态条件,作者首先总结了三种融合方案,从浅层到深层融合紧凑性,并全面探索它们的影响和适用性。然后根据图像、音频和视频生成的模态差异提出了一种合适的解决方案。对于面部形态特征,作者利用深层融合方案(共生融合)来确保面部的一致性。对于音频,作者实施浅层融合方案(直接融合),以实现音频-动画对齐的同时保持多样性。扩展实验表明,文章所提出的方法能够生成具有增强多样性和生动性的时间上连贯且逼真的视频。
在这里插入图片描述

● 文章题目:LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis
● 论文链接:https://arxiv.org/pdf/2411.16748
● 项目主页:https://z

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楠哥聊AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值