声音合成与克隆——制作用于训练的声音数据集

文章介绍了如何利用PaddleSpeech进行语音合成和声音克隆,包括文本前端、声学模型和声码器的工作流程。数据集制作涉及声音录制、背景音乐去除、音频剪切等步骤,推荐使用UltimateVocalRemover去音乐和AdobeAudition进行剪辑。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

1.PaddleSpeech 是一个简单易用的all-in-one 的语音工具箱,支持语音处理的相关操作,如语音知别,语音合成,声纹识别,声音分类,语音翻译,语音唤醒等多个方向的应用开发。

这里只使用到语音合成与声音克隆,主要由文本前端(Text Frontend) 、声学模型(Acoustic Model) 和 声码器(Vocoder) 三个主要模块,模块工作流程如下:

  • 通过文本前端模块将原始文本转换为字符/音素。
  • 通过声学模型将字符/音素转换为声学特征,如线性频谱图、mel 频谱图、LPC 特征等。
  • 通过声码器将声学特征转换为波形。

2.要完成整个项目,大致可以分以下几个步骤:

  • 语音数据收集,处理。
  • 语音合成与克隆模型微调。
  • 模型离线应用部署。

数据集制作

1.如果想训练自己的声音,可以使用录音设备录制自己的声音,发声中英都可以,录制的环境尽量没有杂音,录制时长越多越好。

2.如果使用网络上的声音数据,那么视频与音频都可以。

3.我这里演示使用的是B站上的一个UP主的语音,我剪切大概10段5分钟以上的视频,因为视频的声音带着背景音乐,为了训练效果,这里要去掉背景音乐。去掉背景音乐有很多种方法,专业的做语音处理的人喜欢用Adobe Audition来处理,但学起来太麻烦了。这里可以借助深度学习的魔法来去掉背景音乐。

 Ultimate Vocal Remover是一款超好用的伴奏人声提取工具,安装完成之后就可以使用UVR来分离伴奏与人声了&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值