中文语音生成模型vits-chinese运行实践

一 环境配置

一台笔记本

安装pycharm pip miniconda3

在conda env环境中安装pip依赖并运行工程代码

注意:如果安装pip依赖WeTextProcessing失败,原因是其依赖pynini安装失败,其解决方法如下

conda install -c conda-forge pynini

pip install WeTextProcessing

二 工程代码路径

可直接在cpu上运行,包含依赖模型,底模文件,标贝数据集和修改后文件,可节省不少调试时间

工程压缩后总大小3.54G

扫码支付后得到百度网盘下载地址,然后自行下载

扫码支付-八图片

三 模型原理

vits-chinese 是在vits网络上的改进

vits网络前面已经介绍过,这里不再累述

改进点在于:

1. 使用bert中文模型处理音频中的中文信息,作为vits网络的输入bert

2. 将音频中的中文拼音分开为声母和韵母,然后将其数字化,作为vits网络的输入x

将音频进行短时帧傅里叶变换,作为vits网络的输入spec,这个和原网络一致

speaker id作为vits网络的输入sid,这个和原网络一致

四 训练

目的:新增speaker:Arik的语音训练

这里是直接使用标贝数据集作为Arik的语音进行训练,当然也可以基于标贝数据集的label,自行录制语音进行替换,制作自己的数据集

重采样

python prep_resample.py --wav train/wav/ --out vits_data/waves-16k

规范化label

python prep_format_label.py --txt train/000001-010000.txt --out vits_data/lables.txt --speaker Arik

数据预处理

python prep_bert.py --conf configs/bert_vits.json --data vits_data/

数据调试

python prep_debug.py

启动训练

cd monotonic_align

python setup.py build_ext --inplace

cd ../

python train.py -c configs/bert_vits.json -m bert_vits

推理

python vits_infer.py -c configs/bert_vits.json -m logs/bert_vits/G_xxx.pth -i 0

推理效果如下,

文本:遥望星空作文独自坐在乡间的小丘上,看着阳光渐渐变暗,听着鸟鸣渐渐变弱,触着清风渐渐变凉

输出音频:

不支持格式,就不放了

实际运行过程中,训练4个来回后,输出的语音已经很接近Arik的音色,其收敛效果比前面介绍的so-vits-svc模型好很多,该模型可强烈推荐作为中文语音转换的标杆模型。

附:

该工程代码基于vits-chinese,其源码地址如下:

GitHub - PlayVoice/vits_chinese at bert_vits_aishell3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
文库首页人工智能深度学习VITS-Chinese模型使用标贝男声数据进行了700k步的训练。 人工智能(Artificial Intelligence,简称AI)是一种利用计算机技术模拟人类智能的科学与技术。而深度学习(Deep Learning)是AI领域中的一种方法,它通过构建和模拟人脑神经网络的方式,从大量的数据中进行学习和推理,实现对复杂问题的解决。 VITS-Chinese是一种基于深度学习语音合成模型,它通过训练学习人类语音数据,模拟出自然流畅的语音表达能力。在文库首页,VITS-Chinese模型使用了标贝男声数据,这是一组带有标注的中文男声音频数据集。 为了让VITS-Chinese模型更好地学习和生成中文语音,进行了700k步的训练。训练过程中,模型通过不断地输入标贝男声数据,分析声音的特征和语音表达规律。通过优化和调整模型的参数和结构,使其能够更准确地模拟和生成中文语音。 700k步的训练过程不VITS-Chinese模型逐渐提高了对标贝男声数据的识别和生成能力,同时也增强了模型中文语音合成领域中的应用价值。通过在文库首页应用这一经过700k步训练的模型,用户可以更好地体验到自然流畅的中文语音合成效果,提高语音交流的可靠性和效率。 总之,文库首页的人工智能深度学习VITS-Chinese模型使用了标贝男声数据进行了700k步的训练,以提供更优质的中文语音合成服务。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI印象

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值