【开发日志】数字人+LLM：从概念到实现的全程记录！

最新推荐文章于 2025-04-10 20:38:52 发布

AI大模型-王哥

最新推荐文章于 2025-04-10 20:38:52 发布

阅读量3.1k

点赞数 47

文章标签：大模型学习大模型教程大模型人工智能 LLM 数字人大模型入门

本文链接：https://blog.csdn.net/2401_84204413/article/details/144970625

版权

数字人是各种技术的集合，所以文章尽可能完整的介绍，项目中涉及的大小模型均可在本地部署并在我本人机器上运行。系统环境：
CPU: i9 14900 16GB
GPU: GTX 4060 8GB
SYS: Windows 11
WSL: Ubuntu 22.04
本文章使用到的技术内容:

数字人框架: LiveTalking
大模型: Llama3.1
TTS: GPT-SoVits
语音转视频: Wav2Lip
前端展示：WebRTC

项目整体架构

分析数字人所需要的功能：

大模型生成回答文本
回答的文本生成语音
生成的语音生成视频
生成的视频推流前端

大模型生成文本

这个部分可以另外开五篇文章来介绍，主要是使用开源的大模型部署在本地或者使用公共大模型接口。

部署在本地的开源大模型

目前成熟的本地部署开源大模型的方式是ollama，另外就是可以使用python启动模型。由于调用大模型这里并没有什么可以定制的内容且ollama包含丰富的开源大模型内容，所以选择ollama来部署大模型。

目前的开源大模型中较好的有:

以上这几种都有较小的版本(7b、8b)可以在本地(GPU: rtx4060 with 8GB)上运行。

通过在官网上下载安装ollama，然后执行

ollama run llama3.1

即可下载并运行llama3.1的默认版本，下载完成后将会看到输入框，便可以使用本地大模型了。

由于开源大模型的规模比较小，知识不会全面和准确，所以需要使用知识库或者对模型微调，这里另开一篇文章。

公共大模型接口

这里指的是使用OpenAI、文心一言等闭源大模型接口，OpenAI相对其他大模型呈碾压态势，而文心一言由于其对中文特性的支持能在国内拿到一些份额。由于目前大模型降价很厉害，购买Token是一种非常具有性价比的选择。

但如果你处于战略性行业，对数据的安全和私密要求比较高，所有服务都是私有化部署的时候，使用闭源大模型服务就是一种非常危险的行为，尤其是使用OpenAI这种境外的服务厂商。另外就是闭源模型无法微调、使用知识库时可能消耗大量的Token，也是我没有使用闭源大模型厂商服务的原因。

回答的文本生成语音

其实就是文本转语音，就像使用翻译时候的朗读功能一样，只不过需要更加真实的音色、语气和停顿。

部署在本地的TTS模型

开源TTS模型效果比较好的是 GPT-SoVits，文档中对部署方式写的比较清晰，在github首页按照介绍使用就可以了，这里不多描述。

需要注意的是这个模型可以使用你输入的一段语音来生成一段具有相似音色的语音，需要准备好语音片段以及语音包含的文字内容。

在线TTS接口

这是最好的中文Text to Speech接口： [Azure] 有些方式可以免费使用，可以在Github上探索一下。

生成的语音转成视频

这部分几乎全部是开源模型的市场，目前有如下几个模型：

Wav2Lip 更新于4年前
SadTalker 更新于去年
MuseTalk 更新于半年前
hallo 更新于2个月前

所以使用hallo和MuseTalk可能是最好的选择，但是我使用的数字人框架只支持MuseTalk和Wav2Lip，使用MuseTalk的时候安装mmvc总是出错，最后换成Wav2Lip，效果一般。

不过我又查看了下hallo，发现其推理效果不错，但是时间是真的长。check this issue：github.com/fudan-gener… 所以几乎无法完成我们的实时生成需求。

生成的视频推流前端

这部分实际上是最有挑战性的，主要的过程是：

静音模式下播放固定的动画视频
文字转语音，并切分成流式帧
将语音通过模型生成视频帧
将视频帧和语音帧同步的通过WebRTC推流到前端

技术细节比较多，还不是特别熟悉，暂时不写。

实践

通过上面的架构，我们直接使用LiveTalking框架，按照文档的指示来使用整个工作流，需要的工作就是：

提供大模型服务
提供TTS服务
做一些修改以适应需求

在开发的过程中发现有如下问题:

大模型对接有问题，支持的太少
前端界面也有一些问题

大模型支持

我部署完之后发现本地大模型没办法接入，所以直接在app.py内修改human()函数，我用了llama_index这个工具，比langchain的优势在于比较简单，可以快速插入，修改的内容如下：

if params['type'] == 'echo':
    ## 导入 llama_index（提前执行 pip install llama_index）
    from llama_index.llms.ollama import Ollama

    ## 接入本地llama3.1大模型
    llm = Ollama(model="llama3.1:latest", request_timeout=120.0)
    ## 全量执行输入的文字
    ## 这里有问题就是同步异步的问题，实际上大模型获取结果不应该阻塞渲染
    resp = llm.complete(params['text'])
    
    ## 获取
    nerfreals[sessionid].put_msg_txt(resp.text)

这样前端数字人回答的就是大模型的输出了。