最近在研究深度学习中扩散模型在语音合成(TTS)中的应用,目前主要在跑diffwave、DiffGAN,FastDiff、Prodiff等效果不错的模型。下面是FastDiff的运行笔记:
文献:FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis
代码:https://github.com/Rongjiehuang/FastDiff
环境:torch 1.12 数据集采用 LJSpeech-1.1
1 首先配置config文件,设置数据集位置及预处理后的输出位置(建议用绝对路径,用的相对路径没识别出来)
同时尽量按照request中安装环境,否则有可能出现Moduelnotfind等报错)
2 数据预处理
以config用python运行 pre_align.py binarize.py 进行数据预处理,进行了对齐并转换
3 在task中设置以config文件以及实验名称 运行run.py文件 至此模型开始训练
同时也打印了模型的所有结构,baseconfig配置文件中可更改训练参数, 等训练完成便可inference了。