一.github作者指南
1.下载数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav)
2.进行音频和梅尔频谱图预处理: python pre.py <datasets_root> -d {dataset} -n {number}
可传入参数:
-d {dataset} 指定数据集,支持 aidatatang_200zh, magicdata, aishell3, data_aishell, 不传默认为aidatatang_200zh
-n {number} 指定并行数,CPU 11770k + 32GB实测10没有问题
3.假如你下载的 aidatatang_200zh文件放在D盘,train文件路径为 D:\data\aidatatang_200zh\corpus\train , 你的datasets_root就是 D:\data
4.训练合成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
二.实际操作命令行
1.预处理:python pre.py F:\机器学习\实践\AI语音克隆\data
2.指定显卡进行模型训练:CUDA_VISIBLE_DEVICES=0,1,2,3 python synthesizer_train.py mandarin F:\机器学习\实践\AI语音克隆\data/SV2TTS/synthesizer
3.数据集混合训练
按这个顺序运行pre:
1.第一次直接运行pre.py,默认处理aidatatang
2. 第二次指定数据集为aishell3, 带上-d aishell3 -s
3. 第三次指定数据集为data_aishell,带上-d data_aishell -s