Tacotron2训练笔记

烟雨清寒

已于 2022-05-17 21:38:15 修改

阅读量2.6k

点赞数 1

分类专栏：语音合成文章标签： python 深度学习

于 2022-05-17 19:38:20 首次发布

本文链接：https://blog.csdn.net/qq_44951010/article/details/124828260

版权

2 篇文章 0 订阅

订阅专栏

Tacotron2(NVIDIA版)训练笔记

下载项目或通过git clone https://github.com/NVIDIA/tacotron2.git拉取项目，

下载ljspeech数据集
conda创建虚拟环境conda create --name tacotron2 python=3.6，

激活环境conda activate tacotron2，

安装pytorch pip install toch==1.4(最好在tmux中安装)，

安装其他依赖包pip install -r requirements.txt
进入filelists目录，当中有三个txt文件，记录了音频路径和文本的对应关系，'|'左边是音频路径，右边是相应的英文文本，

修改音频路径为ljspeech数据集的相对路径，示例（datasets与tacotron2在同一目录下）：
打开hparams.py文件，里面是一些超参数，可以修改epoch(训练轮数)，sampling_rate(采样率)，batch_size(如果爆显存了可以把batch_size调小点)等，

运行python train.py --output_directory=outdir --log_directory=logdir进行训练，训练结果保存在outdir目录下
训练完成后，jupyter 运行inference.ipynb文件进行测试,

将checkpoint_path改为自己训练的模型路径，如outdir/checkpoint_40000,

下载WaveGlow项目，放到tacotron2目录下，

下载waveglow_256channels_universal_v5.pt文件，放到tacotron2目录下，

将jupyter内核切换为tacotron2环境，运行即可合成语音，text为要合成的文本
运行tensorboard --logdir=outdir/logdir命令，可以查看训练过程中的一些参数

关注