声音合成与克隆——制作用于训练的声音数据集

知来者逆

已于 2024-04-13 21:57:11 修改

阅读量3.3k

点赞数 8

分类专栏：智能算法文章标签：语音合成声音克隆人声伴奏提取 UVR Adobe Audition

于 2023-07-10 23:41:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matt45m/article/details/131502867

版权

文章介绍了如何利用PaddleSpeech进行语音合成和声音克隆，包括文本前端、声学模型和声码器的工作流程。数据集制作涉及声音录制、背景音乐去除、音频剪切等步骤，推荐使用UltimateVocalRemover去音乐和AdobeAudition进行剪辑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

1.PaddleSpeech 是一个简单易用的all-in-one 的语音工具箱，支持语音处理的相关操作，如语音知别，语音合成，声纹识别，声音分类，语音翻译，语音唤醒等多个方向的应用开发。

这里只使用到语音合成与声音克隆，主要由文本前端（Text Frontend）、声学模型（Acoustic Model）和声码器（Vocoder）三个主要模块，模块工作流程如下：

通过文本前端模块将原始文本转换为字符/音素。
通过声学模型将字符/音素转换为声学特征，如线性频谱图、mel 频谱图、LPC 特征等。
通过声码器将声学特征转换为波形。

2.要完成整个项目，大致可以分以下几个步骤：

语音数据收集，处理。
语音合成与克隆模型微调。
模型离线应用部署。

数据集制作

1.如果想训练自己的声音，可以使用录音设备录制自己的声音，发声中英都可以，录制的环境尽量没有杂音，录制时长越多越好。

2.如果使用网络上的声音数据，那么视频与音频都可以。

3.我这里演示使用的是B站上的一个UP主的语音，我剪切大概10段5分钟以上的视频，因为视频的声音带着背景音乐，为了训练效果，这里要去掉背景音乐。去掉背景音乐有很多种方法，专业的做语音处理的人喜欢用Adobe Audition来处理，但学起来太麻烦了。这里可以借助深度学习的魔法来去掉背景音乐。

Ultimate Vocal Remover是一款超好用的伴奏人声提取工具，安装完成之后就可以使用UVR来分离伴奏与人声了&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知来者逆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。