【GitHub项目推荐--数字人开源项目】【转载】

旅之灵夫

已于 2025-04-16 07:23:16 修改

阅读量1.4w

点赞数 23

分类专栏： GitHub项目推荐文章标签： github

于 2024-01-28 19:02:28 首次发布

本文链接：https://blog.csdn.net/j8267643/article/details/135898411

版权

GitHub项目推荐专栏收录该内容

308 篇文章

订阅专栏

Fay是一个开源项目，提供数字化主播和数字人模型，支持虚拟主播、语音助理、商品导购等功能。通过AI对口型技术，结合其他开源项目，Fay促进了数字人在电商直播、语音交互等方面的广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Fay

Fay作为一个开源项目，提供了构建数字化主播和其他虚拟角色的解决方案。项目的主要组成部分是Fay控制器和数字人模型，这些可以结合起来创造多种应用场景。以下是Fay能够生成的几种应用场景：

1. 虚拟主播：通过Fay控制器及数字人模型，开发者能够创建虚拟主播来进行直播带货或视频内容制作。这些主播可以是基于真实人物的模拟形象，也可以是完全的虚构角色。

2. 商品导购：数字人可以作为商品导购员，在商店或在线平台上辅助顾客进行购物选择，提供产品信息和建议。

3. 语音助理和远程语音助理：数字人可以作为语音助理，进行语音交互，提供信息查询、日程管理等辅助任务。在远程工作环境中，这样的数字人助手可以帮助进行远程会议管理、议程安排等。

4. 数字人互动：在教育、娱乐或客户服务领域，数字人可以用于创建互动体验，如教学互动、游戏互动等。

5. 数字人面试官：在招聘过程中，使用数字人面试官可以提供自动化的面试流程，公正地评估应聘者的资格。

6. 心理测评：数字人可用于创建心理测评工具，辅助心理健康评估，不过这需要确保测评内容的科学性和专业性。

7. 贾维斯/Her：类似电影《钢铁侠》中的贾维斯或《Her》中的操作系统，数字人可以作为智能助手，在用户日常生活中提供帮助，如管理家务、提供建议等。

Fay项目的开发考虑了当前科技趋势和市场需求，使开发者能够利用开源代码，创造具有多种功能的数字人，以适应不同的商业和个体需求。通过使用Fay，商家和个人可以节省传统直播或客户服务中的人力成本，同时提供24小时不间断的服务。Gitee平台支持AI模型的托管，为AI开发者提供了方便的托管服务，确保了开发和部署的高效性和稳定性。

值得注意的是，尽管Fay项目的潜力巨大，但开发者在构建和部署应用时，也需要遵守相关法律法规，并确保内容的真实性和合法性，特别是在涉及商品推广、心理健康测评等敏感领域。

开发人员可以利用该项目简单地构建各种类型的数字人或数字助理。该项目各模块之间耦合度非常低，包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。每个模块都可以轻松地更换。

Fay控制器的用途

Fay控制器是一个开源项目，主要用于管理和控制数字人模型，以实现各种应用场景，如虚拟主播、商品导购、语音助理等。Fay控制器的核心功能包括：

1. 语音识别与合成：Fay控制器支持语音识别和语音合成技术，可以实现与用户的自然语言交互。通过识别用户的语音输入，控制器可以理解用户的需求并提供相应的回应。

2. 动作控制：Fay控制器可以控制数字人的动作和表情，使数字人能够根据应用场景进行相应的表演和互动。通过动作控制，数字人可以实现更加自然和逼真的表现。

3. 场景管理：Fay控制器支持多种场景的应用，可以根据不同场景的需要，调整数字人的表现和行为。例如，在商品导购场景下，数字人可以展示商品信息并提供购买建议；在教育场景下，数字人可以进行教学讲解等。

4. 应用开发接口：Fay控制器提供了一系列开发接口，使开发者可以方便地创建和定制数字人应用。开发者可以利用这些接口，将数字人集成到自己的应用中，实现各种创新的应用场景。

总的来说，Fay控制器的用途在于提供一个灵活、强大的工具，使开发者能够轻松地创建和部署数字人应用，满足不同领域的需求。

优秀的产品都值得用Fay数字人从新做一遍

10月，Fay数字人 AI Agent版与官方demo(实验箱)同时开源！目前进展

一、APP载入UE数字人：

1、像素流服务搭建及优化：已经完成，上线时会同步开放代码

2、UE音频流插件：正在调试修复Bug.

3、改进BS唇型：进行中.

二、智慧农业箱硬件改造：完成并已经稳定运行，上线时会公布硬件设计图.

三、IOTM3.0及Raspberry逻辑修改：完成并已经稳定运行，上线时会同步开放代码.

四、农业LLM：已经搭建农业知识图谱。开始测试gpt4的设备控制的推理能力:已经完成硬件控制规则的自动初始化及控制逻辑的自动修正测试.

如何实现？

据项目开发者在博客中介绍，Fay 的基本理念就是“把人数字化，以行人的职责”。

具体来讲是通过技术把人的特征数字化，比如进行语音识别、情绪分析，构建人的表情和动作，合成带有情绪的语音并输出，让这个数字人有“耳朵”“嘴巴”。

从构成上看，Fay 由多个模块组成，各个模块之间耦合度非常低，包括声音来源、语音识别、情绪分析、NLP 处理、情绪语音合成、语音输出和表情动作输出等模块，每个模块都可根据需要自行替换。下图为 Fay 控制器的核心逻辑。

如何安装？

部署安装环境

该项目需在 Python 3.8.0 + 环境下运行；
如要开启直播功能，需下载 Chrome 浏览器；
安装依赖。

     pip install -r requirements.txt

更多详情官网

数字人在电商直播的应用主要体现在以下几个方面：

1. 商品展示与推广：通过数字人虚拟主播的形象定制和语言表达，可以将商品进行精准展示和推广，提高商品的吸引力和购买欲望。

2. 降低成本：与传统的线下直播相比，数字人直播可以省去场地租赁、设备购置等大量费用，降低运营成本。

3. 超越时间和空间限制：数字人直播可以随时随地进行，不受时间和空间的限制，实现全天候直播，吸引更多观众。

4. 可定制化内容：数字人虚拟主播可以根据不同场景和需求进行定制，提供更多元化、创新化的内容，满足用户的个性化需求。

5. 强大的互动体验：通过先进的人工智能技术，数字人虚拟主播可以与观众进行实时互动，增加用户参与度和粘性。

6. 个性化购物体验：数字人直播软件为电商直播注入了更多的个性化元素。虚拟主播可以根据观众的兴趣和需求，实时调整内容，提供更加个性化的购物建议。

7. 持续互动：数字人直播软件可以实现24/7的持续直播，无需主播休息。这意味着观众可以随时进入直播间，获取产品信息并进行购买。

8. 语音和情感分析：一些数字人直播软件已经整合了语音和情感分析技术。这使得虚拟主播能够更好地理解和回应观众的情感和需求。

9. 跨平台传播：数字人直播软件可以轻松集成到各种社交媒体平台和电商网站中，提高了曝光度和销售机会。

github源代码：

https://github.com/TheRamU/Fay

AI Agent：

https://github.com/xszyou/Fay/tree/fay-agent-edition

直播带货：

https://github.com/xszyou/Fay/tree/fay-sales-edition

数字人助理：

https://github.com/xszyou/Fay/tree/fay-assistant-edition

除了 Fay 这个开源项目，开发者还推荐你和如下这些开源项目进行集成，来丰富数字人的能力。

消费级 PC 大模型：https://github.com/THUDM/ChatGLM-6B
全平台抖音抓包：https://github.com/wwengg/douyin
UE5工程：https://github.com/xszyou/fay-ue5
实时照片驱动集成：https://github.com/waityousea/xuniren

腾讯开源VideoReTalking项目是一个强大且高效的AI对嘴型工具

源代码

OpenTalker/video-retalking: [SIGGRAPH Asia 2022] VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild (github.com)

文生图技术已经非常成熟、文本到语音，语音到文本技术也很成熟。

ChatGPT文本对话又如此丝滑

那么人工智能让数字人说话，唯一的技术难点，也是目前的关键技术，就是AI对口型。

如果AI能对口型，那么GPT生成式对话，然后加上文生图，可以做出很不错的数字人。

【阿里通义万象文生图 俄罗斯女老师 】

腾讯开源的VideoReTalking项目是一个强大且高效的AI对嘴型工具。该项目由西安电子科技大学、腾讯人工智能实验室和清华大学联合开发，其主要目的是通过输入一个视频和一个音频文件，生成一个新的视频，其中人物的嘴型会与音频同步，从而呈现出更为逼真和自然的对话效果。

VideoReTalking项目的实现过程主要可以分为三个步骤：

面部视频生成：系统首先使用表情编辑网络来修改每一帧的表情，使其与一个标准表情模板相符，从而生成一个具有标准表情的视频。
音频驱动的嘴型同步：然后，这个视频和给定的音频一起被输入到嘴型同步网络中。该网络能够学习音频信号与嘴型运动之间的关联，从而生成一个嘴型与音频同步的视频。
面部增强：最后，系统通过身份感知的面部增强网络和后处理来进一步提高合成面部的真实性。这包括优化皮肤的纹理、光照和阴影等细节，使得生成的视频看起来更加自然和逼真。

VideoReTalking项目的优点在于其自动化和高效性。整个过程不需要用户进行复杂的干预或调整，只需简单地输入视频和音频文件，系统就能自动完成嘴型同步和面部增强的任务。此外，由于该项目采用了先进的深度学习技术，因此能够处理各种复杂的音频和视频信号，生成高质量的同步视频。

总的来说，腾讯开源的VideoReTalking项目为视频编辑和语音合成领域带来了新的可能性，使得人们能够更加方便地生成逼真、自然的对话视频。

阿里开源：EchoMimic V2

阿里达摩院推出了一个令人经验的数字人开源项目-EchoMimic V2。这是一款基于语音驱动的肖像动画生成工具，专注于生成高质量的数字人半身动画视频。

项目简介

EchoMimic V2 不仅能够让虚拟形象开口说话，并且实现口型同步，还能添加头部和身体动作，进一步增强数字形象的表达力，首次实现身体动作口型全同步。

核心技术

EchoMimicV2 利用参考图像、音频片段和一系列手部姿势来生成高质量的动画视频，确保音频内容和半身动作之间的连贯性。

音频-姿势动态协调策略：该策略通过姿势采样和音频扩散来增强半身细节和面部表达力，减少条件冗余。

Head Partial Attention：这项技术帮助整合头部数据，设计特定阶段去噪损失优化动画质量。

手部姿势序列生成：项目可以根据参考图片、音频剪辑和手部姿势序列生成高质量动画视频，确保音频内容与半身动作的一致性。

开源地址：https://github.com/antgroup/echomimic_v2
在线Demo：https://huggingface.co/spaces/fffiloni/echomimic-v2

腾讯&浙大联合开源：Sonic

一张静态照片 + 一段音频就能让画面中的人物“活过来”，自然地开口说话。腾讯与浙江大学联合推出的开源项目 Sonic 通过音频生成数字人，效果拉满！

🔥 项目简介

Sonic 是一个基于分层对齐框架的音频驱动肖像动画生成工具，无论是虚拟偶像、影视创作，还是教育解说，Sonic 都能大显身手！

只需输入一张人物照片和一段音频（如歌曲或对话），它就能自动合成人物唇部、面部表情、头部动作与音频高度同步的视频，甚至支持长视频生成，避免画面失真。

开源地址：https://github.com/jixiaozhong/Sonic
在线 Demo：http://demo.sonic.jixiaozhong.online/
huggingface：https://huggingface.co/spaces/xiaozhongji/Sonic/

🚀 技术亮点

① 分层对齐框架：Sonic 将动画分解为唇部同步、表情渲染、头部运动三层，逐级优化细节，使动作更自然流畅，告别机械感。

② 跨身份泛化能力：无论是真人、动漫角色，还是不同角度的照片，Sonic 都能精准适配，生成高度契合的动画效果。

③ 长视频稳定性：传统工具在生成长视频时容易出现画面扭曲，而 Sonic 通过动态锚点技术，确保长时间生成的画面稳定无伪影。

④ 开源易用：项目已集成到 ComfyUI，开发者可快速上手，社区还提供了丰富的案例和教程。

腾讯开源：HunyuanVideo

这个不算数字人模型，是腾讯混元团队开源的一种新颖的视频生成基础模型，其视频生成性能可与领先的闭源模型相媲美，甚至优于它们。

团队进行了大量的实验，并实施了一系列有针对性的设计，以确保高视觉质量、运动多样性、文本-视频对齐和生成稳定性。

根据专业人工评估结果，HunyuanVideo 的表现优于之前的模型，包括 Runway Gen-3、Luma 1.6 和 3 个表现最好的中文视频生成模型。

开源地址：https://github.com/Tencent/HunyuanVideo

AigcPanel

AigcPanel 是一个简单易用的开源 AI 数字人系统，旨在为用户提供全方位的 AI 视频合成、语音合成、语音克隆功能。

它的设计理念是使普通用户也能轻松上手，简化了本地模型的管理及导入过程。该系统支持多种模型的一键启动，并提供直观的界面，允许用户进行视频与声音的合成与克隆。

🚀 核心功能

AigcPanel 作为小白也会用的一站式 AI 数字人系统，基于 Vue 开发，集成了三大核心功能：

① 视频合成：通过 AI 算法生成自然流畅的肢体动作和面部表情

② 声音克隆：支持多种声音参数设置，用户可以创造与原声相似的克隆效果。

③ 多模型支持：可导入多个模型并通过一键启动包进行管理。

此项目不仅面向开发者，也适合想要快速实现 AI 模型应用的企业和个人用户，极大地简化了 AI 模型的使用与管理过程。

💻 如何部署

Windows

访问 https://aigcpanel.com 下载 Windows 安装包，一键安装即可。安装完成后，打开软件，下载模型一键启动包，即可使用。

自定义模型接入，可以前往开源项目的主页，查看详细部署方法：

开源地址：https://github.com/modstart-lib/aigcpanel

硅基数字人 heygem.ai

掀桌子级别的「数字人」开源了！

刚刚，刚刚头部数字人公司硅基智能宣布：开源了全球 TOP 级别的模型：硅基数字人 heygem.ai

并且提供下载安装包，对于不懂代码的小白也能快速上手制作自己的数字人。效果业内顶级，直接把数字人技术的门槛拉到地板。

口型匹配效果流畅丝滑，业内顶级，并且开放了无限克隆能力。这是真掀桌子了，不仅思考：以后谁还会花钱买数字人？

开源地址：https://github.com/GuijiAI/HeyGem.ai

01 有多强？

只需要上传 1 秒视频或者一张你的照片， 30 秒就能克隆出你的数字分身，精准克隆你的外貌和声音，并生成 60 秒视频。

① 口型发音匹配，毫无为违和感。

基于先进 AI 算法，基于你上传的肖像图片，精准捕捉识别你的五官、面部轮廓，识别你的声音的特征，克隆你的形象和声音。

而且在侧脸或者脸部遮挡情况下，也能 100% 匹配口型和发音。并且数字人分身会自动对口型，根据语音内容自动调节表情和语速节奏，顶级口型发音匹配。

克隆音色后支持 8 种语言输出，看看你的数字分身说一口流利日语是什么样的

② 无限时长，离线克隆

市面上的数字人工具，生成 20 分钟的视频大概需要 15 元。使用硅基数字人开源工具，免费不限量，并且支持离线克隆数字人的形象和声音。

不需要网络，不会把你的个人隐私照片、视频上传到云端，保护你的隐私。

③ 4K 画质，高清导出

逛逛 GitHub 之前推荐过硅基智能第一个数字人开源项目，那个画质仅仅支持 720p ，硅基数字人直接支持超清 4K 导出，无限时长合成数字人视频，清晰度拉满。

④ 代码开源，定制化开发

开发者可基于硅基数字人的开源代码定制开发，企业能在本地搭建 AI 内容生产系统，创作者则可轻松生成高质量的 AI 数字人视频。

不再依赖封闭平台或昂贵云服务，其高效推理实现 1:2 视频渲染速度，灵活部署适合个人、中小企业及大型机构，广泛应用于内容创作、营销、教育、电商等领域。

02 如何部署

硅基数字人提供了多种部署方式，只要你的显卡配置不低于英伟达1080Ti、并且本地有 100G 的空间，就能在本机搭建属于你自己的数字人生成神器。

如下是推荐配置哈：

CPU：第 13 代英特尔酷睿 i5-13400F
内存：32G
显卡：rtx-4070，确保正确安装了显卡驱动

安装 Windows Docker

① 安装 wsl 的命令：wsl --install

可以用 wsl --list --verbose 命令可以查看本机有没有安装过 wsl，如果装过了就不需要装了。

② 下载 Docker Windows 版

打开 docker.com 下载，根据你的硬件配置情况选合适的版本。

③ 安装成功后，可以运行 Docker

61eb4c19-3e7a-4791-a266-de4209690cbd

安装服务端

采用 Docker 方式安装，docker-compose 如下：

在本地新建一个 docker-compose.yml 文件，把上面的内容粘贴进去。在 docker-compose.yml 所在目录执行如下命令。

docker-compose docker-compose up -d

连接上 WiFi，大概半小时左右就能下载完成（大概 70 G），如果在 Dokcer 中看到如下三个服务，表示成功了：

客户端

构建脚本 npm run build:win，执行后会在 dist 目录下产生 HeyGem-1.0.0-setup.exe，双击即可安装啦。

图像-20250304114114272

开源地址：https://github.com/GuijiAI/HeyGem.ai

原文链接：

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)