参考教程。
记录一些要点:
- 数据集预处理
- UVR5-分离伴奏:Method-Demucs、Stem-Vocals、Model-v3|UVR-Model-1、GPU Conversion √、Vocals Only √
- UVR5-消除混响和声:Input-vocal、Method-VR、Size-320、Aggression-10、Model-5_HP_Karaoke_UVR、GPU Conversion √、Vocals Only √
- Renamer-文件批量改名:建议只包含字母、数字、下划线
- AudioSlicer-音频切分:第2步处理好的纯人声拖入Task List里,Minimum Length改成8000,目标文件夹名称建议为需要训练的音声人物名
- 上一步的文件夹放入整合so-vits-svc-4.0/dataset_raw/,运行数据预处理,dataset文件夹里为预处理好的数据集,filelists文件夹里为自动划分的训练集、验证集、测试集标注
- 训练
- 改配置文件:so-vits-svc-4.0/configs/config.json,12G显存RTX3080Ti设置(learning_rate: 0.0002, batch_size: 12),两者正比;24G显存RTX3090设置(learning_rate: 0.0004, batch_size: 24)
- 评估结果一组随机抽5个数,越小越好;每训练200个Step,保存一次G/D.pth模型文件
- 训练.bat
- 推理
- 推理webui.bat
- 目标人音声也须分离伴奏、消除混响和声、切片,但切片用AU切即可(保存成wav格式)
- 转换完后用AU拼接,用PR合成音频伴奏
-
聚类模型/自动f0预测
-
适合我推的歌,且她没唱过
- 富士山下 - 陈奕迅
- 用AU变调音频后再合成视频
- 制作输出格式改成1080P HD
- 再对齐下音轨,后期有点抢拍
- 处处吻 - 杨千嬅:单声道音轨不对齐,对拍对应伴奏的强拍
- 可惜我是水瓶座 - 杨千嬅:转双声道
- 小幸运 - 田馥甄:转双声道,几处歌词第一个字尖锐爆音,重新转换也不行,标记这些选段使用AU的自动修复选区处理
- 好きだから。 - ユイカ:转双声道,悄悄话声单独转换
总结:混音多,消的不干净的歌,转换声线适合只放单声道的;反之,可以放双声道的立体感强。
- 富士山下 - 陈奕迅