【首个开源数字人】HeyGem—— Heygen的开源替代方案,从此克隆数字人不再有门槛!

Heygem是一款专为Windows系统设计的全离线视频合成工具,它能够精确克隆您的外貌和声音,让您的形象数字化。您可以通过文字和语音驱动虚拟形象,进行视频制作。无需联网,保护隐私的同时,也能享受到便捷和高效的数字体验。

HeyGem数字人效果实测对比

01 网站入口

Github项目地址:

https://github.com/GuijiAI/HeyGem.ai

本地部署流程:

https://mp.weixin.qq.com/s/IZvATAEKd_KtzHwFmHDA-w?from=industrynews

问题反馈渠道:

https://github.com/GuijiAI/HeyGem.ai/issues

Heygem - 魔乐社区版 (解决镜像拉取问题):

https://modelers.cn/models/Modelers_Park/HeyGem.ai

02 它的功能到底有多强?

  • 全离线操作:无需联网即可使用,有效保护用户隐私,让用户在安全、独立的环境中进行创作,避免数据在网络传输过程中可能存在的泄露风险。

  • 简单易用:操作界面简洁直观,即使是没有任何技术背景的小白也能轻松上手,快速掌握软件的使用方法,轻松开启数字人创作之旅。

  • 多模型支持:支持导入多个模型,并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。

03 如何去安装?

一、前置条件

  1. 必须有 D 盘:主要用于后续数字人、作品等数据存储

    空闲空间要求:大于30G

  2. C 盘:用于存储服务镜像文件

    空闲空间要求:大于 100G

  3. 系统要求:

    目前支持 Windows 10 19042.1526 或更高版本

  4. 推荐配置:

    CPU:第13代英特尔酷睿 i5-13400F

    内存:32G及以上(必要)

    显卡:RTX4070

    显存:12G以上

  5. 确保有英伟达显卡,并正确安装显卡驱动(必要)

  6. 英伟达驱动下载地址:

 https://www.nvidia.cn/drivers/lookup/

二、安装 Windows Docker

  1. 用wsl --list --verbose命令可以查看本机有没有安装过wsl,如下图就是已经安装过,无需再安装

  • 安装wsl的命令:wsl --install

  • 由于网络原因,可能失败,多试几次

  • 安装过程中需要设置新的用户名和密码,设置并记住

2.用wsl --update更新wsl。

  1. 下载 Docker Windows 版,根据机器 CPU 架构选择不同的安装包。

  2. 出现这个界面表示安装成功。

  1. 运行 Docker

  2. 首次运行接受协议和跳过登录

3.如果不足 100G,可以在安装完成docker后,在下图的位置重新选一个剩余空间大于 100G 的磁盘文件夹。

三、安装服务端

采用Docker方式安装,docker-compose如下:

  1. docker-compose.yml文件在/deploy目录下。

  2. /deploy目录执行docker-compose up -d

  3. 由于镜像已更换为阿里云国内源,下载速度更快,但仍需耐心等待(预计 30 分钟左右,具体取决于网络情况)

  4. 看到Dokcer 中出现三个服务,表示成功了

四、客户端

  1. 客户端安装包已存放在/Releases目录下

  2. 双击HeyGem-x.x.x-setup.exe即可安装

04开放 API

我们开放了模特训练和视频合成的API,Docker 启动后会在本地暴露几个端口,通过http://127.0.0.1可以调用。

具体代码可以参考

  • src/main/service/model.js

  • src/main/service/video.js

  • src/main/service/voice.js

一、模特训练

  1. 将视频分离为静音视频 + 音频

  2. 音频放到D:\heygem_data\voice\data下

D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的,可以在docker-compose中修改

    3. 调用接口:

    http://127.0.0.1:18180/v1/preprocess_and_tran

    1. 参数示例:

     
     

    {"format": ".wav","reference_audio": "xxxxxx/xxxxx.wav","lang": "zh"}
     

    1. 返回示例:

     
     

    {"asr_format_audio_url": "xxxx/x/xxx/xxx.wav","reference_audio_text": "xxxxxxxxxxxx"}
     

    1. 记录下返回结果后续音频合成需要用到

    二、音频合成接口

    http://127.0.0.1:18180/v1/invoke 

    三、视频合成接口

    http://127.0.0.1:8383/easy/submit

    联系我们

    James@toolwiz.com

    更多资讯,欢迎关注【硅基智能】公众号 

    ### 关于数字人 HeyGEM 的技术实现与产品介绍 #### 技术背景 HeyGEM 是由硅基智能推出的一款开源 AI 数字人模型,该模型利用先进的声音克隆技术和图像处理算法实现了高度逼真的数字人生成能力。通过这些技术,可以依据给定的声音样本生成几乎完全一致的语音输出,同时保留原始语音中的语境、语调以及语速特征[^1]。 #### 创新特点 HeyGEM 不仅限于简单的音频模仿,在视觉表现上也达到了前所未有的水平。“中国造” Heygem.ai 平台整合了一系列尖端功能,其中包括“零训练、秒级量产”的高效生产模式。这意味着只需提供一秒长度的视频片段或者单一静态图片作为输入源,即可快速构建出具备高还原度的人物外貌及相应声线的虚拟角色[^2]。更进一步地说,整个过程能够在极短时间内完成高质量的内容创作——例如在短短六十秒钟之内便能产出一段分辨率达到四千像素(即4K)级别的超清影像资料。 此外,无论面对多么复杂多变的实际拍摄环境条件,比如强弱不均的光照分布情况或是部分身体部位被物体遮掩等情况之下,此款软件依然能够保持百分之百精准无误地同步唇部动作,并且赋予所创造出来的数字化身以真实自然的情绪传递方式,从而极大地促进了这类技术向商业化应用场景迈进的步伐。 #### 系统需求 对于希望自行搭建并运行这套系统的开发者而言,则需要注意满足一定的硬件规格要求。根据官方文档记载,建议使用的计算机配置至少应达到如下标准:处理器方面选用最新一代Intel Core i5系列型号;随机存储器容量设定为三十二吉比特以上;图形加速单元则推荐采用NVIDIA GeForce RTX 4070及以上版本的产品,当然前提是已经妥善完成了对应品牌显卡驱动程序的安装工作。另外值得注意的是,即便是在较为基础的情况下,也需要配备不低于英伟达Tesla V100级别性能指标的传统桌面GPU设备,与此同时预留不少于一百亿字节的有效磁盘剩余空间来保障整体操作流程顺利开展下去[^3]。 ```python # 示例代码展示如何初始化一个基本的数字人对象 (假设存在这样的API) from heygem import DigitalHuman human = DigitalHuman( voice_sample="path/to/voice/sample.wav", image_source="path/to/image/or/video/source.jpg" ) video_output = human.generate_video(duration=60, resolution=(3840, 2160)) ``` 上述脚本展示了简化版创建数字人的方法论框架结构图解说明文件路径参数设置等内容项具体含义请参照实际开发指南手册获取更多细节信息.
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值