现在你可以通过深度学习用别人的声音来说话了

最新推荐文章于 2024-12-27 10:43:37 发布

磐创 AI

最新推荐文章于 2024-12-27 10:43:37 发布

阅读量7.2k

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fendouaini/article/details/94936871

版权

640?wx_fmt=png

语音合成（Text-to-speech，TTS）是指文本到音频的人工转换，也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务，而一个好的TTS系统是让计算机自动完成这项任务。

在打造这样一个系统时，一个非常有趣的地方是为生成的音频选择哪个声音，是男人还是女人的声音？声音是大还是小？

在使用深度学习创建TTS时，这有一个限制，你必须收集文本-音频的数据集，而录制演讲的演讲者可能是固定的——因为你不可能有无限多个演讲者！

所以，如果你想为自己或他人的声音创建音频，唯一的方法就是收集一个全新的数据集。

来自谷歌名为 Voice Cloning 的人工智能研究使计算机可以用任何类型声音发出声音。

Voice Cloning是怎样工作的

很明显，为了让电脑能够使用任何类型声音发出声音，它需要理解两件事:它读的是什么以及它是如何读的。

因此，谷歌研究人员设计的语音克隆系统有两个输入:我们想要读取的文本和我们想要用来阅读文本的语音样本。

例如，如果我们想让蝙蝠侠读“我爱披萨”这句话，那么我们会给系统两样东西：“我爱披萨”的文本和一小段蝙蝠侠的声音样本，这样它就知道蝙蝠侠的声音应该是什么样的。而电脑的输出应该是蝙蝠侠说“我爱披萨”的声

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。