端到端开源“音频+面部”驱动头像视频扩散模型ACTalker

端到端开源“音频+面部”驱动头像视频扩散模型ACTalker

原创 弹贝斯的鱼 带你学AI 2025年04月26日 21:38 广东

对话头合成对虚拟头像和人机交互至关重要。然而,大多数现有方法通常仅接受来自单一主模态的控制,限制了它们的实际应用。数字人说话时眼神飘忽,像在背课文,面部动画像提线木偶,每个器官各动各的。因此,香港科技大学携手腾讯和清华提出了ACTalker,一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于对话头视频的生成。(链接在文章底部)

对于多重控制,设计了一个并行的mamba结构,包含多个分支,每个分支利用独立的驱动信号来控制特定的面部区域。一个门控机制应用于所有分支,提供对视频生成的灵活控制。为了确保受控视频在时间和空间上的自然协调,采用了mamba结构,使得驱动信号能够在每个分支中跨越两个维度操控特征令牌。此外,引入了一种mask-drop策略,使得每个驱动信号能够独立控制其对应的面部区域,从而避免控制冲突。

ACTalker框架示意图:ACTalker接受多个信号输入(即音频和视觉面部运动信号),驱动语音合成头像视频的生成。除了稳定视频扩散模型中的标准层(例如空间卷积、时间卷积、空间注意力和时间注意力)外,还引入了并行控制mamba层,以充分利用多信号控制的优势。音频和面部运动信号与其相应的掩码一起输入到并行控制mamba层中,掩码指示需要聚焦并进行操作的区域。

empty

并行控制mamba层示意图:该层包含两个并行分支,一个用于音频控制,另一个用于表情控制。在每个分支中使用门控机制来控制训练过程中控制信号的访问。在推理时,可以手动修改门控状态,以启用单一信号控制或多信号控制。

图片

,时长00:20

并行控制mamba层中音频分支的Mask-SSM示意图:视觉分支与此相同,只是将其替换为运动嵌入和运动掩码。

图片

02 演示效果与对比

音频直接驱动人像说话:

,时长01:28

自然面部运动:

,时长00:12

局部微小面部运动:

,时长00:21

同时由音频和面部运动驱动:

,时长00:49

ACTalker能够准确生成嘴部动作并减少伪影,同时呈现自然的头部姿势和表情,区别于其他方法仅操控嘴形,其他区域保持静止。其mamba设计有效结合音频信号与面部特征令牌,确保自然表情和精确嘴型同步,且通过面部掩码作为音频掩码,音频驱动方式融合几乎所有面部特征。

,时长00:36

https://github.com/harlanhong/ACTalkerhttps://arxiv.org/pdf/2504.02542
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医疗AI强化曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值