AI数字人：口播与唇形同步的福音，支持本地部署/批量生成/口齿清晰

最新推荐文章于 2025-04-29 08:39:12 发布

原创最新推荐文章于 2025-04-29 08:39:12 发布

· 3.4k 阅读

版权

文章标签：

1 篇文章

订阅专栏

好消息！Heygem 在 GitHub 上开源了！不过，嘻嘻，只是前端界面开源，感觉更像是来 GitHub 刷一波知名度。不过这依然是个值得关注的工具。让我们先来看看它的官方介绍：

Heygem 是一款专为 Windows 系统打造的完全离线视频合成工具。它能精确克隆你的外貌和声音，将你的形象数字化。通过文字或语音驱动虚拟化身，你可以轻松制作视频。无需网络连接，在保护隐私的同时，享受高效便捷的数字体验。

精准外貌与语音克隆
借助先进的 AI 算法，Heygem 高精度捕捉五官、轮廓等特征，构建逼真的虚拟模型。同时，它还能克隆语音，捕捉人声的细微特征，支持多种语音参数设置，打造高度相似的音色效果。
文字及语音驱动的虚拟化身
通过自然语言处理技术，Heygem 能将文本转化为流畅自然的语音，驱动虚拟化身开口“说话”。你也可以直接输入语音，虚拟化身会根据语音的节奏和语调，同步做出相应的动作和表情，表现更加生动。
高效视频合成
数字人视频画面与声音高度同步，口型匹配自然流畅，智能优化音视频效果，带来极佳的视听体验。
多语言支持
支持八种语言脚本：英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语，满足全球化需求。

更棒的是，Heygem 还支持通过 Docker 进行本地部署，部署后甚至可以批量生成视频！下面我来详细讲讲如何在 Windows 上实现本地部署。

前往 Heygem github官网 https://github.com/GuijiAI/HeyGem.ai/tree/main/deploy，下载 Docker 部署文件。
你无需关心文件内容，只需使用 Docker 指令即可。
进入下载文件夹，在地址栏输入 cmd 并回车，打开命令行窗口。
在命令行输入以下指令： docker-compose up -d 这条指令会创建并启动容器，以后台模式运行。
根据网络情况好坏，下载镜像可能需要 1-2 小时（建议全程科学上网）。 
下载完成后，打开 Docker Desktop，在“Containers”中确认三个镜像正常运行（正确运行图标为正方形而非三角形）。
[Docker Desktop 中三个镜像运行状态截图]

至此，Heygem 的后端服务已部署完成。因为关键操作（如唇形同步模型）都集成在 Docker 。

前往 GitHub 上的 Heygem 托管页面，下载运行界面 EXE 程序。
[GitHub 下载界面截图] https://github.com/GuijiAI/HeyGem.ai/releases
下载并安装后即可使用。

快速定制数字模特
点击“快速定制”，输入模特名称，上传模特视频，点击提交。稍等片刻，回到主页即可在“我的数字模特”中看到结果。
生成视频
鼠标移到数字模特上，点击“做视频”按钮，进入编辑界面。
 你可以输入文本或上传音频生成视频。
- 文本合成：仅提供一种音色，略显机械。
- 音频推荐：使用 CosyVoice 一键包克隆音色，上传音频后再合成，效果更自然。CosyVoice 一键包下载地址在以前的文章中有讲过，下载解压即可使用
批量生成与常见问题
Heygem 支持批量生成，但前一个视频未完成时，后续任务会排队。
如果长时间卡在 20%：
[生成进度卡在 20% 的截图]
- 检查显卡占用，一般来说你的显卡比较好，是不需要太长时间。如果长时间卡在20%，注意是长时间。
  
  [显卡占用截图]
- 若卡住，前往用户 AppData 目录删除软件数据库，重新上传模特和素材即可。