vits2_pytorch学习资料汇总 - 非官方PyTorch实现的VITS2文本转语音模型

vits2_pytorch项目简介

vits2_pytorch是VITS2论文的非官方PyTorch实现,VITS2是一个高质量高效率的单阶段文本转语音(TTS)模型。该项目由GitHub用户p0p4k开发,旨在改进原始VITS模型,提高合成语音的自然度和计算效率。

vits2架构图

主要特性

  1. 改进了持续时间预测器,添加了LSTM判别器
  2. 在归一化流中加入了Transformer块
  3. 引入了说话人条件文本编码器
  4. 使用梅尔频谱图后验编码器
  5. 支持单说话人和多说话人训练
  6. 提供ONNX导出和Gradio演示界面

预训练模型

音频样本

使用教程

环境配置

  1. Python >= 3.10
  2. PyTorch 1.13.1
  3. 安装依赖: pip install -r requirements.txt
  4. 可能需要安装espeak: apt-get install espeak

数据准备

  1. 下载LJSpeech数据集,链接到 DUMMY1
  2. 多说话人设置:下载VCTK数据集,降采样到22050Hz,链接到 DUMMY2

训练示例

# LJSpeech 
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

ONNX导出

python export_onnx.py --model-path="G_64000.pth" --config-path="config.json" --output="vits2.onnx"

贡献者

项目得到了多位贡献者的支持,包括@erogol@lexkoro@athenasaurav等。

vits2_pytorch为研究人员和开发者提供了一个强大的TTS模型实现,欢迎大家使用和贡献该项目!

文章链接:www.dongaigc.com/a/vits2-pytorch-text-to-speech-resources

https://www.dongaigc.com/a/vits2-pytorch-text-to-speech-resources

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值