【大模型系列篇】硅基智能开源数字人模型HeyGem.ai，开启数字人时刻

木亦汐丫

已于 2025-04-23 11:16:50 修改

阅读量1.9k

点赞数 15

分类专栏：大模型文章标签：数字人硅基智能 HeyGem fun-asr fish-speech gradio 开源

于 2025-03-19 16:19:20 首次发布

本文链接：https://blog.csdn.net/Jackie_vip/article/details/146372153

版权

大模型专栏收录该内容

55 篇文章

订阅专栏

硅基智能开源数字人模型HeyGem.ai, 1秒克隆生成4K视频, 支持离线多语言, 开源72小时狂揽1.3k星, 目前已经获得3.4k星。

我们之前体验过阿里的EchoMimicV2 《AI半身数字人开箱体验——开源项目EchoMimicV2》和腾讯的 MuseTalk 《数字人音唇同步模型——腾讯开源MuseTalk》，今天我们来看看HeyGem的效果。

硅基智能正式宣布在GitHub开源全球TOP级数字人模型，同时发布基于该模型的同名数字人工具硅基数字人克隆的本地安装包，这一举措标志着数字人技术进入秒级克隆、无限量使用、全离线推理生成的新时代。

与传统数字人训练需要数小时甚至数天的模式相比，硅基数字人克隆实现了极限压缩，仅需1秒视频或一张照片，即可完成数字人形象和声音的克隆，30秒内完成数字人克隆，60秒内合成4K超高清数字人视频，在复杂光影、侧脸、遮挡等场景下仍能保证100%口型匹配，输出多表情多肢体动作数字人视频。

该开源模型不仅极大缩短了数字人克隆训练及生产周期，大幅提升视频生产效率，同时在数字人画面口型精确性、表情演绎的自然度及整体视觉流畅度上均达到全球顶尖水平。

开源地址：https://github.com/GuijiAI/HeyGem.ai

在实际应用中，硅基数字人克隆支持无限时长的4K超高清数字人视频生成，能够通过语音或文字输入驱动，克隆后的数字人音色支持8种语言输出，为跨国企业、在线教育、影视制作、直播营销等多场景提供更高效、更低成本的解决方案。

无论是需要批量生产AI虚拟主播、打造个性化智能客服，还是用于品牌代言、广告营销，硅基数字人克隆都能以秒级的响应速度和行业领先的精度，满足不同场景对高质量数字人的需求。凭借顶级口型同步技术，在复杂光影、遮挡或侧面角度下依然能实现高度逼真的发音匹配，使得数字人视频的自然度进一步提升，接近真人表达效果。

硅基数字人克隆的开源不仅是技术能力的释放，更是推动数字人普及化、个性化发展的关键一步。当前市场上的数字人产品往往受制于高昂的训练成本、服务器依赖和使用限制，而硅基数字人克隆以开源、免费、无限量克隆、全离线可部署的特性，真正实现了人人可用、随时可用的数字人生产力工具。

开发者可以基于硅基数字人克隆的开源代码进行定制化开发，企业可以在本地搭建属于自己的AI内容生产体系，创作者可以用最简单的方式，快速生成高质量的AI驱动数字人视频内容。无论是技术研发、商业应用，还是个性化创作，硅基数字人克隆的推出都将大幅降低进入门槛，加速数字人技术的普及和应用落地。

基本介绍

Heygem是一款专为Windows系统设计的全离线视频合成工具，它能够精确克隆您的外貌和声音，让您的形象数字化。您可以通过文字和语音驱动虚拟形象，进行视频制作。无需联网，保护隐私的同时，也能享受到便捷和高效的数字体验。

核心功能
- 精确外貌与声音克隆：运用先进的 AI 算法，高精度捕捉真人外貌特征，包括五官形状、面部轮廓等，构建逼真虚拟模型。同时，能精准克隆声音，捕捉并还原人声的细微特征，支持多种声音参数设置，可创造与原声高度相似的克隆效果。
- 文字和语音驱动虚拟形象：通过自然语言处理技术理解文本内容，将文字转换为自然流畅的语音，实现文字驱动虚拟形象。也可直接使用语音输入，让虚拟形象根据语音的节奏、语调等进行相应的动作和表情变化，使虚拟形象的表现更加自然、生动。
- 高效视频合成：将数字人的视频画面与声音高度同步，实现自然流畅的口型匹配，智能优化音视频同步效果。
- 多语言：脚本支持八种语言，英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
显著优势
- 全离线操作：无需联网即可使用，有效保护用户隐私，让用户在安全、独立的环境中进行创作，避免数据在网络传输过程中可能存在的泄露风险。
- 简单易用：操作界面简洁直观，即使是没有任何技术背景的小白也能轻松上手，快速掌握软件的使用方法，轻松开启数字人创作之旅。
- 多模型支持：支持导入多个模型，并通过一键启动包进行管理，方便用户根据不同的创作需求和应用场景选择合适的模型。
技术支持
- 声音克隆技术：利用人工智能等先进技术，根据给定的声音样本生成与之相似或相同声音的技术，涵盖语音中的语境、语调、语速等。
- 自动语音识别：一种能将人类语音中的词汇内容转换为计算机可读输入，也就是转换为文本格式的技术，让计算机能够 “听懂” 人们说的话。
- 计算机视觉技术：用于视频合成中的视觉处理，包括面部识别、口型分析等，确保虚拟形象的口型与声音和文字内容相匹配。

主要功能

秒级克隆：仅需1秒视频或1张照片，完成数字人形象和声音的克隆，30秒内完成克隆，60秒内合成4K超高清数字人视频。
高效推理：推理速度达到1:0.5，视频渲染合成速度达到1:2。
高质量输出：支持4K超高清、32帧/秒的视频输出，超越好莱坞电影24帧的标准。
多语言支持：克隆后的数字人支持8种语言输出，满足全球市场需求。
无限量克隆：支持无限量克隆数字人形象和声音，无限量合成视频。
100%口型匹配：在复杂光影、遮挡或侧面角度下，实现高度逼真的口型匹配。
低配可跑：支持Docker一键部署，最低只需NVIDIA 1080Ti显卡即可运行。

依赖项

Nodejs 18 及以上版本
Docker镜像

docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai

ASR based on fun-asr
TTS based on fish-speech-ziming

硬件推荐

CPU：第13代英特尔酷睿i5-13400F。
内存：32GB。
显卡：RTX 4070。
存储空间：
- 空间1：用在存储服务镜像文件，需要100GB以上空间。
- 空间2：用在存储数字人和项目数据，需要30GB以上空间。

安装服务端

采用Docker方式安装，docker-compose如下：

docker-compose.yml文件在/deploy目录下。
在/deploy目录执行docker-compose up -d
耐心等待一段时间（半小时左右，速度取决于网速），下载会消耗70G左右流量，注意连WIFI
看到Dokcer 中出现三个服务，表示成功了

启动完成服务后，显存占用近8个GB。

安装客户端

客户端可以自己进行编译，运行npm run build:win生成安装程序 HeyGem-1.0.0-setup.exe。也可以直接下载官方构建的安装包，双击安装程序进行安装即可。

自定义客户端

因为官方只提供了Window版本的安装包，这里我们基于Gradio开发了简洁的用户界面，封装服务端的HeyGem能力来体验。

模特训练

1. 将视频分离为静音视频 + 音频

接下来静音视频会用于数字人视频合成，音频会用于声音克隆。

声音克隆

1. 音频放到D:\heygem_data\voice\data下

D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的，可以在docker-compose中修改

2. 调用 http://127.0.0.1:18180/v1/preprocess_and_tran接口

参数示例：
{"format": "wav", "reference_audio": "xxxxxx/xxxxx.wav", "lang": "zh"}
返回示例
{"asr_format_audio_url": "xxxx/x/xxx/xxx.wav", "reference_audio_text": "xxxxxxxxxxxx"}
记录下返回结果后续音频合成需要用到，该步骤会截取20s音频，并提取文本信息

音频合成

接口：http://127.0.0.1:18180/v1/invoke

// 请求参数
{
  "speaker": "{uuid}", // 一个UUID保持唯一即可
  "text": "xxxxxxxxxx", // 需要合成的文本内容
  "format": "wav", // 固定传参
  "topP": 0.7, // 固定传参
  "max_new_tokens": 1024, // 固定传参
  "chunk_length": 100, // 固定传参
  "repetition_penalty": 1.2, // 固定传
  "temperature": 0.7, // 固定传参
  "need_asr": false, // 固定传参
  "streaming": false, // 固定传参
  "is_fixed_seed": 0, // 固定传参
  "is_norm": 0, // 固定传参
  "reference_audio": "{voice.asr_format_audio_url}", // 上一步“模特训练”的返回值
  "reference_text": "{voice.reference_audio_text}" // 上一步“模特训练”的返回值
}

视频合成

合成接口：http://127.0.0.1:8383/easy/submit

// 请求参数
{
  "audio_url": "{audioPath}", // 音频路径
  "video_url": "{videoPath}", // 音频路径
  "code": "{uuid}", // 唯一key
  "chaofen": 0, // 固定值
  "watermark_switch": 0, // 固定值
  "pn": 1 // 固定值
}

进度查询：http://127.0.0.1:8383/easy/query?code=${taskCode}

get 请求，参数taskCode是上面合成接口的返回值

返回示例：

{
    "code": 10000,
    "data": {
        "code": "19d23e71-f32d-4f10-a8d4-abdd15a79548",
        "msg": "音频特征提取完成",
        "progress": 20,
        "result": "",
        "status": 1
        },
    "msg": "",
    "success": true
}

{
    "code": 10000,
    "data": {
        "code": "19d23e71-f32d-4f10-a8d4-abdd15a79548",
        "msg": "任务完成",
        "progress": 100,
        "result": "/19d23e71-f32d-4f10-a8d4-abdd15a79548-r.mp4",
        "status": 2
        },
    "msg": "",
    "success": true
}