2024-09-01 - 通用人工智能技术 - AI 数字人直播 - 合成篇

本文链接：https://blog.csdn.net/weixin_36532747/article/details/141783646

摘要

2024-09-01 周日杭州风和日丽

小记: 这周以政府采购评审专家的身份参加了采购评审，前几天摔伤的地方也逐渐愈合了，不过现在的我多少还是有点叛逆的，天天洗澡，等伤好了一定要去泡温泉。

应用实践

1 项目获取

git clone https://github.com/ai-liuys/DH_live.git

2 安装依赖

# windows 研发测试，需要安装 ffmpeg 并配置环境变量
https://ffmpeg.org/download.html

3 创建运行环境

# AI 环境，默认要求 python 3.10 版本以上
conda create --name win_ai python=3.11 -y 
# 环境激活 
conda  activate win_ai
# 安装依赖
pip install --upgrade pip
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 退出环境
conda deactivate 

# 确认 nvidia 版本
nvidia-smi 
# 安装 pytorch : https://pytorch.org/get-started/previous-versions/
conda install pytorch==2.2.0 torchvision==0.17.0 torchaudio==2.2.0 pytorch-cuda=12.1 -c pytorch -c nvidia
# 验证 pytorch 是否成功(返回 True 为正常)
python
import torch
Print(torch.cuda.is_available())

4 模型文件解压

cd checkpoint
gzip -d -c render.pth.gz.001 > render.pth

5 数字人模板

python data_preparation YOUR_VIDEO_PATH

6 数字人合成

将上一步生成的模板和视频放在同一个目录下，比如 test 目录

python demo.py video_data/test video_data/audio0.wav 1.mp4

6 语音输入合成

python demo_avatar.py

总结

这个项目是一个由少镜头学习驱动的实时直播数字人。它旨在在所有30和40系列显卡上流畅运行，确保无缝和交互式的直播体验。

主要特点
实时性能：数字人可以在普通NVIDIA 30和40系列GPU上以25+fps的速度实时交互
少镜头学习：该系统能够从几个例子中学习，以生成逼真的响应。

效果一般，官方提供的案例，测试是通过的，并且代码有点粗糙，项目提供的视频文件合成过程不会有什么问题，我自己采集的视频和音频合成过程就会有视频帧数的报错问题，数字人的整体拟合效果也不是太好的。所以我个人仅是测试下使用效果，并不会进一步使用此项目。