【亲测可用!】阿里达摩院开源实时数字人对话VideoChat本地部署教程(8G显存可跑)

前言

本文主要记录在部署阿里达摩院开源实时数字人对话VideoChat时遇到的问题,希望对各位技术开发或爱好者有所帮助!

资料链接

• 参考资料:开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区
• 开源地址:https://github.com/Henry-23/VideoChat

技术原理

目前数字人实时对话方法

  1. Linly Talker,基于Gradio的数字人对话项目,多模型集成,功能丰富,但不支持实时对话和流式输出。(个人理解:意思就是)
  2. LiveTalking,基于流媒体的数字人生成项目,数字人响应快,但交互界面比较简陋,且需要配置服务器,部署难度较高。
  3. awesome-digital-human-live2d,基于Dify编排的数字人互动项目,轻量化,交互方式丰富,但数字人形象不够真实,且不支持口型同步。

• 基于此,VideoChat实现了一个基于开源的技术方案、支持语音输入和实时对话、数字人形象真实且口型同步、可在线试用的开源数字人实时对话demo。

方法/工作流概述

技术选型:
• ASR (Automatic Speech Recognition): FunASR
• LLM (Large Language Model): Qwen
• TTS (Text to speech): GPT-SoVITS, CosyVoice, edge-tts
• THG (Talking Head Generation): MuseTalk
在这里插入图片描述

并行流水线架构

在这里插入图片描述
在这里插入图片描述

• 如上,维护多个队列,分别保存LLM生成的句子、TTS生成的音频和THG生成的视频帧,并结合多线程进行并行处理。这使得在完成第一个句子的处理后即可开始数字人的响应,边推理边播放,极大地降低了用户的等待时间。

性能水平

• 研究人员实测在A100/V100上,首包延迟可低至为3s。

先附上安装环境

备注:官方的requirements.txt中的环境实测不行!需要我们自己配环境!

注意:以下环境(包版本)已经过测试,可用!

所需要的包:
gradio==5.4.0 
modelscope_studio==0.5.2 
omegaconf==2.3.0
ffmpeg-python==0.2.0
opencv-python==4.9.0.80
numpy==1.23.0
dashscope
soundfile==0.12
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值