python模拟别人说话的声音_现在你可以通过深度学习用别人的声音来说话了

最新推荐文章于 2022-08-03 00:49:31 发布

weixin_39828847

最新推荐文章于 2022-08-03 00:49:31 发布

阅读量1k

点赞数

文章标签： python模拟别人说话的声音

编译 | Arno

来源 | Medium

语音合成(Text-to-speech，TTS)是指文本到音频的人工转换，也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务，而一个好的TTS系统是让计算机自动完成这项任务。

在打造这样一个系统时，一个非常有趣的地方是为生成的音频选择哪个声音，是男人还是女人的声音？声音是大还是小？

在使用深度学习创建TTS时，这有一个限制，你必须收集文本-音频的数据集，而录制演讲的演讲者可能是固定的——因为你不可能有无限多个演讲者！

所以，如果你想为自己或他人的声音创建音频，唯一的方法就是收集一个全新的数据集。

来自谷歌名为 Voice Cloning 的人工智能研究使计算机可以用任何类型声音发出声音。

V oice Cloning是怎样工作的

很明显，为了让电脑能够使用任何类型声音发出声音，它需要理解两件事:它读的是什么以及它是如何读的。

因此，谷歌研究人员设计的语音克隆系统有两个输入:我们想要读取的文本和我们想要用来阅读文本的语音样本。

例如，如果我们想让蝙蝠侠读“我爱披萨”这句话，那么我们会给系统两样东西： “我爱披萨”的文本和一小段蝙蝠侠的声音样本，这样它就知道蝙蝠侠的声音应该是什么样的。而电脑的输出应该是蝙蝠侠说“我爱披萨”的声音音频！

从技术角度来看，系统分为3个顺序组件：

给定我们希望使用的声音的一个小音频样本，将语音波形编码为一个固定的维向量表示

给定一段文本，也把它

最低0.47元/天解锁文章

weixin_39828847

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python模拟别人说话的声音_现在你可以通过深度学习用别人的声音来说话了

编译 |Arno来源 | Medium语音合成(Text-to-speech，TTS)是指文本到音频的人工转换，也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务，而一个好的TTS系统是让计算机自动完成这项任务。在打造这样一个系统时，一个非常有趣的地方是为生成的音频选择哪个声音，是男人还是女人的声音？声音是大还是小？在使用深度学习创建TTS时，这有一个限制，你必须收集文本-...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。