基于LLM+TTS+Lip-Sync的流式数字人的问答系统框架

置顶

杰说新技术

已于 2024-06-04 11:34:09 修改

阅读量3.6k

点赞数 15

分类专栏： AIGC 数字人文章标签： AIGC 虚拟现实人工智能

于 2024-06-03 15:12:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71062934/article/details/139415207

版权

结合最新开源的LLM模型、TTS语音合成、Lip-Sync唇形同步等技术，我们可以构建出一个流式数字人的问答系统。该系统不仅能够理解复杂问题并给出精准回答，还能通过自然的语音输出和逼真的口型动画，实现类似真人般的沟通体验。其中整个系统框架如下图所示：

整个系统的框架可以分为三个关键部分：LLM模型、TTS模型和Lip-Sync模型。下面分别介绍这三个部分的原理概念和推荐的现有开源模型。

一、LLM模型

原理概念：LLM模型，即大型语言模型（Large Language Model），是一种具有大规模参数和复杂计算结构的大型机器学习模型。

LLM的核心是Transformer模型，这是一种基于自注意力机制的深度学习架构。自注意力机制允许模型在处理输入数据时同时考虑序列中的所有其他元素，从而有效捕捉文本中的长距离依赖关系。

此外，位置编码的引入解决了Transformer模型处理序列数据时缺乏位置信息的问题，增强了模型对语言结构的建模能力。

在该问答系统中，用户通过输入任意的问题，现有的LLM模型都可以回答得上。LLM凭借其强大的泛化能力，即使在没有见过完全相同问题的情况下，也能基于相关知识推断出答案。

现有开源LLM模型推荐：

1、Mistral 7B：由Mistral AI开发的开源LLM，支持长上下文长度，适用于扩展文本任务如文档摘要、长问答和上下文感知生成。

2、ChatGLM-6B：一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化，基于General Language Model (GLM)架构，具有62亿参数。

3、Gemma：Google开发的开源LLM，支持长达8192个标记的

最低0.47元/天解锁文章

杰说新技术

博客等级

码龄3年

53
原创

771
点赞

501
收藏

619
粉丝

关注

私信

热门文章

分类专栏

多模态 15篇
AIGC 46篇
文生图 8篇
文生视频 6篇
英语模型 5篇
3D生成 1篇
ocr 1篇
数字人 4篇
虚拟换衣 1篇
定制化形象 1篇

展开全部收起

下一篇：: chattts最强对手-实时流库PaddleSpeech的最新落地经验总结（不看后悔）

最新评论

MuseTalk的最新唇形同步模型落地实践经验总结（不看后悔）
Yesday ? 、温华良故: 这个怎么实时的啊？我执行这个脚本也没看到有实时啊‘’
最新口型同步技术EchoMimic部署
edccc__: pip一直下载报错怎么办
超详细的CogVLM2模型最新微调落地经验
qq_42914012: 博主，只有这些步骤吗？ apt install mpich mpich-doc mpich-committers-dev这一步我显示定位不到软件包还有peft_lora.py中的参数不用改吗？
多语言声音克隆，CosyVoice模型最强部署
baobaobao6: 这些老的库都被删了，安装新的库也不能运行啊
SenseVoice多语言语音理解模型之最新部署落地经验
栀尘ぅ: 这玩意是什么东西，看了半天不知道这玩意怎么用[code=plain] from model import SenseVoiceSmall import time import argparse class VoiceRecognitionModel: def __init__(self, model_dir="SenseVoiceSmall", device="cpu"): self.model_dir = model_dir self.device = device self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=self.model_dir, device=self.device) def infer(self, input_file, language="auto", use_itn=False): start_time = time.time() result = self.model.inference( data_in=input_file, language=language, use_itn=use_itn, **self.kwargs, ) elapsed_time_ms = (time.time() - start_time) * 1000 print(f"tts time: {elapsed_time_ms:.2f} ms") return result if name == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--voice', type=str, default='voice/test1.wav', help='Path to the voice') args = parser.parse_args() model_dir="SenseVoiceSmall" device="cpu" recognizer = VoiceRecognitionModel(model_dir, device) result = recogni [/code]

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。