畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking

畅游Diffusion数字人(0):专栏文章导航

前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。

目录

效果速览

原理简介

两阶段音频-视觉对齐

身份保持

运动强度调节

论文和代码


效果速览

可以去原始项目主页观看视频:

### 使用 Stable Diffusion 创建数字人 #### 准备工作 为了创建基于图像的会说话的数字人,需先准备好所需的环境和素材。这包括安装并配置好支持Stable Diffusion运行的操作系统(如Windows),以及获取高质量的人脸图片作为基础材料[^3]。 #### 图像准备 选择用于生成数字人的源图像至关重要。建议采用尽可能接近真人外观的照片来获得更佳效果;对于风格化较强的图像,则可能影响最终输出的质量。可以考虑通过Stable Diffusion本身或其他工具调整已有照片以适应需求[^1]。 #### 安装与设置 按照官方指南完成Stable Diffusion Web UI版本的部署,在此过程中确保所有依赖项都正确安装,并能够顺利启动程序界面[^2]。 #### 音频输入 收集或录制想要赋予给数字人的语音片段,将其保存为适合处理格式(例如WAV)。这部分音频将成为驱动模型生成对应口型动画的关键因素之一[^4]。 #### 利用 SadTalker 插件合成视频 借助SadTalker这一特定功能模块,可实现将选定静态肖像同之前准备的声音文件相融合的目的。具体操作是在Web UI界面上加载目标人物头像及配套音轨后执行相应命令,从而得到动态呈现形式的结果——即所谓的“会讲话”的数字化身。 ```bash # 假设已经处于正确的项目目录下 python run.py --driven_audio ./audio.wav --source_image ./image.png --result_dir ./output/ ``` 上述脚本展示了调用SadTalker进行简单任务的方式,其中`./audio.wav`代表待处理声音路径而`./image.png`则是所选面部图案位置,最后指定输出成果存放地址为当前文件夹下的`./output/`子目录内。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值