数字人解决方案——RAD-NeRF实现实时对话数字人环境配置与源码

知来者逆

已于 2024-02-22 01:10:58 修改

阅读量1.2w

点赞数 24

分类专栏：数字人文章标签：数字人语音合成虚拟主播 NeRF 数字人直播

于 2023-07-22 23:15:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matt45m/article/details/131866012

版权

前言

1.这是一个能实时对话的虚拟数字人demo,使用的是NeRF（Neural Radiance Fields），训练方式可以看看我前面的博客。

2.文本转语音是用了VITS语音合成，项目git:https://github.com/jaywalnut310/vits .

3.语言模型是用了新开源的ChatGLM2-6B，当前的项目暂时没有加上这个接口。GitHub - THUDM/ChatGLM2-6B: ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型）

4.声音克隆用的是PaddleSpeech，这个语音克隆训练起来很快，使用的数据集也相对少一些，当前的项目暂时没有加上语音克隆。

GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award. - GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.https://github.com/PaddlePaddle/PaddleSpeech

5.当现实现的效果：

实时对话数字人

语音合成

1.VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variational inference）、标准化流（normalizing flows）和对抗训练的高表现力语音合成模型。VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器，在隐变量上进行随机建模并利用随机时长预测器，提高了合成语音的多样性，输入同样的文本，能够合成不同声调和韵律的语音。

2.声学模型是声音合成系统的重要组成部分：

它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。

3.VITS 的工作流程如下：

将文本输入 VITS 系统，系统会将文本转化为发音规则。
将发音规则输入预先训练好的语音编码器 (vocoder)，vocoder 会根据发音规则生成语音信号的特征表示。
将语音信号的特征表示输入预先训练好的语音合成模型，语音合成模型会根据特征表示生成合成语音。
VITS 的优点是生成的语音质量较高，能够生成流畅的语音。但是，VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型，同时需要较复杂的训练流程。

4.把项目git下来后，我们试试用VITS做个语

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知来者逆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。