本项目是一个集大模型支持的AI数字人实时流视频语音通话系统。它涵盖了视频语音流的输入、大模型处理以及视频语音流的输出,并内置了多个大模型开源项目,以实现高效、智能的实时通讯体验。
系统架构:
- 客户端(Vue.js)
:
-
通过WebRTC技术,将视频和音频流实时推送到SRS服务器。
-
- KMS(可选中转服务器)
:
-
可使用Docker启动KMS作为中转服务器,后端网关层接收流转发的RTP流,并发送至Python服务器进行处理。
-
- SRS服务器
:
-
作为WebRTC的中转服务器,负责转发客户端推送的音视频流到后端处理服务器(Python)。
-
- 后端(Python)
:
- 拉流
:从SRS服务器获取音视频流,进行后续处理。
- 推流
:处理完成后,将音视频流重新推送到SRS服务器,供客户端拉取展示。
- 拉流
- 客户端(Vue.js)
:
-
拉取并展示后端处理后的音视频流。
-
后端功能详解:
音频流处理:
- Offline模式
:一次性处理完整音频文件,适用于测试和调试场景。
- Computationally Unaware模式
:将音频分段处理,每个块按设定的最小块大小(min_chunk_size)加载,适合处理预先录制的长音频文件。
- Online模式
:模拟实时音频流的处理,适用于实时转录等需要即时反馈的场景。
- VAD支持
:可在任何模式下启用语音活动检测,提高处理效率。
可选择的音频处理工具:
- WhisperTimestamped
:基于OpenAI Whisper模型,支持时间戳的库。
- FasterWhisper
:性能优化后的Whisper模型,适用于更快速的转录需求。
- OpenaiApiASR
:使用OpenAI的云端API服务进行语音转录。
- InsanelyFastWhisperASR
:利用Hugging Face transformers实现的高效Whisper管道。
视频流处理:
- 输入方式
:支持从RTP流或本地视频文件中读取视频帧。
- 视频捕获
:使用OpenCV进行视频捕获,或通过FFmpeg管道读取RTP流。
- 物体检测
:每一帧通过YOLO模型进行物体检测,获取物体的类别、置信度和边界框坐标。
- 人脸检测
:若检测到“人脸”类别,则使用DeepFace对人脸进行进一步分析,提取年龄、性别、种族和情绪信息。
- 文本检测
:若检测到“文字”类别,使用EasyOCR对图像中的文本进行识别,并输出识别结果。
LLM处理:
-
支持ChatGPT、Qwen开源模型、Gemini等大型语言模型,用于自然语言处理和生成。
数字人生成:
- ErNeRF
:适用于生成高效、逼真的3D场景和虚拟人物,注重多视角渲染和计算效率优化。
- Musetalk
:通过语音驱动虚拟人脸,实现语音与表情的同步,适用于实时互动的虚拟角色场景。
- Wav2Lip
:专注于通过语音驱动嘴部运动,实现精确的唇形同步,广泛应用于虚拟人脸驱动和视频后期处理。
音频生成:
- EdgeTTS
:微软的语音合成服务,利用Azure Cognitive Services提供高质量的语音生成。
- VoitsTTS
:基于GPT和Sovits模型的语音合成服务,支持参考音色的语音合成。
- CosyVoiceTTS
:支持零样本语音合成,通过参考音频和输入文本生成定制语音。
- XTTS
:语音克隆模型,能够从参考音频中克隆音色,并根据输入文本生成与该音色匹配的语音。
本项目集成了多种先进技术和工具,旨在打造一个功能全面、性能卓越的AI数字人实时流视频语音通话系统。无论是学术研究还是商业应用,本项目都将为您提供强大的技术支持和无限的创新可能。
数字人实时流视频语音通话项目
源代码
http://www.gitpp.com/caiyuangege/mere-fusion
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓