【ICLR 2025】详细解读字节跳动视频生成论文 CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook

Diffusion Models专栏文章汇总:入门与实战

前言:轰轰烈烈的ICLR 2025拉开序幕,由于是Open Review机制,很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。

目录

贡献概述

方法详解

Motion codebook

身份描述符

身体运动图

手部清晰度得分

Pose-aligned Reference Feature

关键点损失局部特征增强

两阶段训练

实验效果


贡献概述

在这项工作中,我们构建了一个能够零样本人类视频生成的单阶段音频驱动身体动画框架。该框架结合了区域码本注意机制来增强关键人体区域的生成质量ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值