前言:轰轰烈烈的ICLR 2025拉开序幕,由于是Open Review机制,很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。
目录
Pose-aligned Reference Feature
贡献概述
在这项工作中,我们构建了一个能够零样本人类视频生成的单阶段音频驱动身体动画框架。该框架结合了区域码本注意机制来增强关键人体区域的生成质量ÿ