十、训练自己的TTS模型

vandh

已于 2023-07-03 11:50:01 修改

阅读量1.3k

点赞数

分类专栏： AI图像处理模型与应用文章标签： tts 语音克隆自己的语音

于 2023-06-28 20:34:45 首次发布

本文链接：https://blog.csdn.net/vandh/article/details/131444380

版权

AI图像处理模型与应用专栏收录该内容

21 篇文章 17 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何从零开始训练个人专属的TTS模型，包括音频采集、降噪、分割、文本获取、数据预处理、模型训练等多个步骤，并列出在训练过程中可能遇到的错误及解决办法，最终使用PaddleSpeech和MFA完成模型构建。

摘要由CSDN通过智能技术生成

开源项目：https://github.com/jerryuhoo/VTuberTalk
解决错误无数多个，修改多个脚本，苦熬几昼夜，终于杀青，功成垂败。特比注意，训练样本少于500条语句，效果灰常差，可以直接放弃。

1、安装
cpu版本：如果只是单纯使用，建议安装这个版本。
conda create -n paddlespeech python=3.8
conda activate paddlespeech
pip install -r requirements_cpu.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2、安装cpu版本的paddlepaddle
# cpu 版本的示例, 需要paddle 2.3.0以上版本
python3 -m pip install paddlepaddle==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
python3 -c "import paddle;paddle.utils.run_check()"

3、获取音频
从B站获取音频的方法：可以用bilibili助手下载Vtuber的录播flv文件，再转成wav文件。
从YouTube获取音频的方法：可以用TamperMonkey上的YouTube下载器下载mp4文件，再转成wav文件。
安装依赖库：
pip install pydub
python tools/video_to_wav.py --path <data to folder or file>
我这里使用格式工厂，可以任意格式转换，剪辑，最后直接输出data/