开源！一个AI数字人实时通话项目，非常详细收藏这篇就够！

程序员辣条

于 2025-03-20 10:17:07 发布

阅读量457

点赞数 5

文章标签：人工智能大模型大模型训练 RAG AI 数字人程序员

本文链接：https://blog.csdn.net/m0_65555479/article/details/146389673

版权

本项目是一个集大模型支持的AI数字人实时流视频语音通话系统。它涵盖了视频语音流的输入、大模型处理以及视频语音流的输出，并内置了多个大模型开源项目，以实现高效、智能的实时通讯体验。

系统架构：

客户端（Vue.js）
：
- 通过WebRTC技术，将视频和音频流实时推送到SRS服务器。
KMS（可选中转服务器）
：
- 可使用Docker启动KMS作为中转服务器，后端网关层接收流转发的RTP流，并发送至Python服务器进行处理。
SRS服务器
：
- 作为WebRTC的中转服务器，负责转发客户端推送的音视频流到后端处理服务器（Python）。
后端（Python）
：
- 拉流
  ：从SRS服务器获取音视频流，进行后续处理。
- 推流
  ：处理完成后，将音视频流重新推送到SRS服务器，供客户端拉取展示。
客户端（Vue.js）
：
- 拉取并展示后端处理后的音视频流。

后端功能详解：

音频流处理：

Offline模式
：一次性处理完整音频文件，适用于测试和调试场景。
Computationally Unaware模式
：将音频分段处理，每个块按设定的最小块大小（min_chunk_size）加载，适合处理预先录制的长音频文件。
Online模式
：模拟实时音频流的处理，适用于实时转录等需要即时反馈的场景。
VAD支持
：可在任何模式下启用语音活动检测，提高处理效率。

可选择的音频处理工具：

WhisperTimestamped
：基于OpenAI Whisper模型，支持时间戳的库。
FasterWhisper
：性能优化后的Whisper模型，适用于更快速的转录需求。
OpenaiApiASR
：使用OpenAI的云端API服务进行语音转录。
InsanelyFastWhisperASR
：利用Hugging Face transformers实现的高效Whisper管道。

视频流处理：

输入方式
：支持从RTP流或本地视频文件中读取视频帧。
视频捕获
：使用OpenCV进行视频捕获，或通过FFmpeg管道读取RTP流。
物体检测
：每一帧通过YOLO模型进行物体检测，获取物体的类别、置信度和边界框坐标。
人脸检测
：若检测到“人脸”类别，则使用DeepFace对人脸进行进一步分析，提取年龄、性别、种族和情绪信息。
文本检测
：若检测到“文字”类别，使用EasyOCR对图像中的文本进行识别，并输出识别结果。

LLM处理：

支持ChatGPT、Qwen开源模型、Gemini等大型语言模型，用于自然语言处理和生成。

数字人生成：

ErNeRF
：适用于生成高效、逼真的3D场景和虚拟人物，注重多视角渲染和计算效率优化。
Musetalk
：通过语音驱动虚拟人脸，实现语音与表情的同步，适用于实时互动的虚拟角色场景。
Wav2Lip
：专注于通过语音驱动嘴部运动，实现精确的唇形同步，广泛应用于虚拟人脸驱动和视频后期处理。

音频生成：

EdgeTTS
：微软的语音合成服务，利用Azure Cognitive Services提供高质量的语音生成。
VoitsTTS
：基于GPT和Sovits模型的语音合成服务，支持参考音色的语音合成。
CosyVoiceTTS
：支持零样本语音合成，通过参考音频和输入文本生成定制语音。
XTTS
：语音克隆模型，能够从参考音频中克隆音色，并根据输入文本生成与该音色匹配的语音。

本项目集成了多种先进技术和工具，旨在打造一个功能全面、性能卓越的AI数字人实时流视频语音通话系统。无论是学术研究还是商业应用，本项目都将为您提供强大的技术支持和无限的创新可能。

数字人实时流视频语音通话项目

源代码

http://www.gitpp.com/caiyuangege/mere-fusion

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。