Windows10下部署Heygem进行数字人生成
先看效果
这是原始视频
原始视频
这是生成的数字人视频
合成数字人
环境准备
对于使用Heygem生成数字人,需要注意几个问题:
- 需要使用Nvidia的显卡。
- 需要在Windows上进行本地部署。主要原因为客户端是Windows的,客户端对上传的视频写入硬编码的
D:\heygem_data\voice\data
目录,需要在容器上读取这些文件。 - 需要在Windows上部署Docker,将Windows的目录映射到容器中,由容器中的服务进行读取。
- 需要特别注意,一定要有D盘,这个D盘是Windows的D盘,不能是插入的USB设备后产生的D盘。
- 需要下载3个Docker镜像,大概70G,需要Windows有足够的磁盘空间。
- 可以定制模特,这个听说是要上传到外网,暂时没进行测试。定制的模特会在本地存储,在生产数字人时,会使用本地的GPU。
- 从生产的效果看,声音和原始模特有点差异,但生成的视频口型还可以,产出还是可用的。用它可以制作一些培训教程还是可以的。
安装Nvidia显卡驱动
我的显卡是一个RTX 3060,6G显存。
安装CUDA
之前安装过CUDA,不知道有没有影响,先列在这里。
服务端部署
下载Docker镜像
用户可以先安装一个Windows的Docker Desktop,这样就可以直接用命令拉取镜像。
docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai
启动Docker容器
项目的github地址如下
https://github.com/GuijiAI/HeyGem.ai
可以使用git命令clone代码,也可以直接下载它的压缩包后,在本地解压。
准备好代码后,进入deploy目录,如我的目录地址为
在C:\Code\HeyGem\deploy
里,执行下面的命令,即可启动三个Docker容器。
docker compose -f docker-compose.yml up -d
我使用的是git带的bash命令,显示效果如下。
从Docker Desktop中可以查看容器的启动情况。
当看到三个容器都是绿色 的状态,说明三个容器中的服务启动正常。
到这里,服务端已经准备好了。
客户端部署
下载客户端软件
下载地址
https://github.com/GuijiAI/HeyGem.ai/releases
我用的软件地址如下:
https://github.com/GuijiAI/HeyGem.ai/releases/download/v1.0.3/HeyGem-1.0.3-setup.exe
安装客户端
运行下载的exe程序
点击安装
开始安装
安装完成
启动客户端
到这里,客户端也部署完成。
制作数字人
上传一个视频进行模特定制,会报下面的错误。分析了一下原因,是 heygem-tts
那个容器中,未能将Windows的路径地址和容器进行映射,导入客户端中生成的WAV文件,在容器中查询不到。导致这个原因是因为我的笔记本只有一个C盘,我用U盘去模拟D盘,这样是行不通的。
在Windows中将C盘进行收缩后,再创建一个分区,并挂载到D:,重新制作模特。
选择一个MP4的视频,提交定制。
不到一分钟,就出现下面的页面。
关闭页面后,回到主页面,就可以看到自己的定制模特了。
创建一个视频,输入希望数字人说的话对应的文字。
点击合成视频,即开始生成数字人。
在客户端可以查看生成的进度。
查看本地的显卡使用情况
制作成功后,可以下载和播放。