python模拟别人说话的声音_现在你可以通过深度学习用别人的声音来说话了

weixin_39932479

于 2020-12-04 11:48:34 发布

阅读量1.8k

点赞数 1

文章标签： python模拟别人说话的声音

本文介绍了语音合成技术，特别是谷歌的Voice Cloning，它允许计算机模仿任何人的声音。该系统通过将文本和语音样本编码，然后解码生成声谱图，再转化为音频波形。借助开源代码，读者可以尝试实时语音克隆，选择声音样本，输入文本，合成个性化语音。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音合成(Text-to-speech，TTS)是指文本到音频的人工转换，也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务，而一个好的TTS系统是让计算机自动完成这项任务。

在打造这样一个系统时，一个非常有趣的地方是为生成的音频选择哪个声音，是男人还是女人的声音？声音是大还是小？

在使用深度学习创建TTS时，这有一个限制，你必须收集文本-音频的数据集，而录制演讲的演讲者可能是固定的——因为你不可能有无限多个演讲者！

所以，如果你想为自己或他人的声音创建音频，唯一的方法就是收集一个全新的数据集。

来自谷歌名为 Voice Cloning 的人工智能研究使计算机可以用任何类型声音发出声音。

Voice Cloning是怎样工作的

很明显，为了让电脑能够使用任何类型声音发出声音，它需要理解两件事:它读的是什么以及它是如何读的。

因此，谷歌研究人员设计的语音克隆系统有两个输入:我们想要读取的文本和我们想要用来阅读文本的语音样本。

例如，如果我们想让蝙蝠侠读“我爱披萨”这句话，那么我们会给系统两样东西：“我爱披萨”的文本和一小段蝙蝠侠的声音样本，这样它就知道蝙蝠侠的声音应该是什么样的。而电脑的输出应该是蝙蝠侠说“我爱披萨”的声音音频！

从技术角度来看，系统分为3个顺序组件：给定我们希望使用的声音的一个小音频样本，将语音波形编码为一个固定的维向量表示

给定一段文本，也把它编码成向量表示。将语音和文本这两个向量结合起来，将它们解码成声谱图

使用声码器将声谱图转换成我们可以听到的音频波形。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。