2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇 - 流雨声

摘要

2024-09-01 周日 杭州 风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审,前几天摔伤的地方也逐渐愈合了,不过现在的我多少还是有点叛逆的,天天洗澡,等伤好了一定要去泡温泉。

应用实践

1 项目获取
git clone https://github.com/ai-liuys/DH_live.git
2 安装依赖
# windows 研发测试,需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html
3 创建运行环境
# AI 环境,默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate 

# 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available()) 
4 模型文件解压
cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth
5 数字人模板
python data_preparation YOUR_VIDEO_PATH
6 数字人合成

将上一步生成的模板和视频放在同一个目录下,比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4
6 语音输入合成
python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行,确保无缝和交互式的直播体验。

主要特点
实时性能:数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习:该系统能够从几个例子中学习,以生成逼真的响应。

效果一般,官方提供的案例,测试是通过的,并且代码有点粗糙,项目提供的视频文件合成过程不会有什么问题,我自己采集的视频和音频合成过程就会有视频帧数的报错问题,数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果,并不会进一步使用此项目。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流雨声

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值