VITS声学模型的云端训练和本地推理

前言:云端训练白嫖谷歌的显卡,本地推理需要有一张3GB显存及以上的N卡

一、云端训练篇(以100条10秒内的短语音为例)素材自备

1、进入笔记本(需要科学上网),登录自己的账号

这个地址可以白嫖谷歌,每天有免费的时常,足够(每天)训练一个模型。

笔记本地址:VITS-fast-finetuning.ipynb - Colaboratory (google.com)VITS-fast-finetuning.ipynb - Colaboratory (google.com)VITS-fast-finetuning.ipynb - Colaboratory (google.com)笔记本地址:

1.(可不做)运行代码块,查看云端显卡型号(免费的一般是Tesla T4 )

 

2.继续点击 STEP 1 下的按钮执行代码块,安装运行环境

此过程大概需要等待几分钟

3、选择并生成声学模型

CJ是中日双语,CJE是中日英三语,根据自己的需要选择

 

4、把训练素材上传到谷歌云盘

我们用谷歌云盘导入素材,因为这种方法导入很快,如果用本地导入,上传速度慢

用一个文件夹装着你的语音素材(语音素材质量比数量重要),然后压缩这个文件夹,上传到谷歌云盘上

在云盘上点击新建,选择上传文件,上传训练素材

上传完成后,可以看到你上传的压缩包

5、登录谷歌云盘

 回到笔记本页面,运行代码块,登录谷歌云盘

登录成功后,可以在左侧看到文件夹目录,根据以下路径可以看到刚刚上传的压缩包 

 

6 、导入素材压缩包

在如图所示位置填写压缩包路径和压缩包名称,然后点击按钮运行代码块,开始上传

 

7、来到 STEP 3 ,自动处理数据

直接运行代码块,时间可以比较长,用于识别语音

 

8、选择是否辅助训练数据

中日双语模型可勾选,质量更佳;具体可以看绿字说明

 

9、开始训练(俗称炼丹)

复制一个用于装载训练模型的文件夹的路径,没有就创建一个 

 填入到代码块的这个地方,用于防止出现意外,训练中止又无法保存模型,填入后会边训练边保存节点模型,不用担心文件太多导致谷歌云盘容量不足,达到一定的阈值会自动帮你删除前面保存的模型

设置训练步数,100条短语音一般设置200~300步,不是越多越好,多了会造成过拟化,起到反作用。注意CONTINUE要保持勾选。然后运行代码块

 等待训练完成,一般时间较长,可以在谷歌云盘下载训练节点中的模型测试 

10、下载模型 

可选下载到本地、保存到谷歌云盘,如果在训练开始前在代码块里填入了装载模型的文件夹路径,这部可以不做,直接在谷歌云盘下载。

我们至少需要下载两个文件,一个 config.json 配置文件,一个或多个以 .pth 结尾的模型文件

 至此,模型训练篇完结

二、本地推理篇 

1.下载vits项目到本地

GitHub - Plachtaa/VITS-fast-fine-tuning: This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

2.把模型和配置文件放入到vits项目根目录中,配置文件名改成 finetune_speaker.json 

 

 3、运行项目,转换文字

运行项目,等待一会,它会自己打开浏览器。选择说话人,选择语言,点击右边的Generatel按钮开始转换

 

4.转换语音文件

点击右边选项卡,可以录音,可以上传语音文件;选择说话人,点击转换即可

 欢迎学习和交流!!!在这里提醒大家,声音也属于肖像权,具有法律效应,请勿商用,更不要用来做一些违法的事情!!!

 

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值