PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS

(以下内容搬运自 PaddleSpeech)

实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。

示例句子:

大家好,我是parrot虚拟老师,我们来读一首诗,我与春风皆过客, I and the spring breeze are passing by,你携秋水揽星河, you take the autumn water to take the galaxy。

(一)单发音人方式(有数据才行!)

使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:

中英文女:

播放音频

中英文男:

播放音频

(二)多发音人语料混合方式(音色串了!)

有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:

播放音频

(三)finetune方式(音色一致了!)

在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:

特色普通话

Baker说中英文:

播放音频

抖音鸡汤女说中英文:

播放音频

动漫

蜡笔小新说中英文:

播放音频

海绵宝宝说中英文:

播放音频

方言

东北话:

播放音频

广西话:

播放音频

河南话:

播放音频

四川话:

播放音频

天津话:

播放音频

粤语:

播放音频


后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。

×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬…××××××××××

FAQ

Q: 有开源方言可直接调用的接口吗?
A: 暂时没看到有免费的

Q: 大佬你好,上述数据是网上爬虫整理的,还是采购的,方言效果不错,如果是采购的话请问哪里可以获取?
A: 整理的呢,主要验证无英文语料的方言发音人的英文发音音色和韵律是什么效果

更多内容请参考原 Disscussion 链接


P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

多种乐器音色识别GUI是一个可以帮助用户识别不同乐器音色的图形用户界面。该GUI提供了一个直观的界面,用户可以通过简单的操作来上传音频文件,并通过算法进行音色识别,准确判断所上传音频的乐器类型。 该GUI的实现主要包括以下几个步骤:首先,通过使用Python等编程语言,搭建基本的图形用户界面。界面可以包括文件上传按钮、开始识别按钮和结果显示区域等。用户只需点击文件上传按钮,选择所需识别的音频文件即可。 其次,建立适用于音色识别的算法。音色识别是通过提取音频中的频谱信息、时域特征等来判断乐器类型。可以使用机器学习算法,如支持向量机(SVM)、卷积神经网络(CNN)等,进行特征提取和模式匹配。这些算法可以在训练阶段获得不同乐器的音色特征,并用于识别上传音频的乐器类型。 最后,将算法与GUI结合起来。当用户点击开始识别按钮后,GUI将调用算法进行音色识别,并将识别结果显示在结果显示区域。识别结果可以以文字形式呈现,或者通过可视化方式展示,如饼图或条形图等,使用户更加直观地了解音色识别的结果。 多种乐器音色识别GUI的实现有助于音乐爱好者、乐器学习者等快速准确地了解不同乐器的音色特征。此外,该GUI还可以应用于音乐研究领域、音乐教育等,为相关领域提供便捷的工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值