速度快1000倍！DeepMind更新WaveNet用于Google助手

最新推荐文章于 2024-08-21 09:27:33 发布

机械鸡_

最新推荐文章于 2024-08-21 09:27:33 发布

阅读量3.9k

点赞数

本文链接：https://blog.csdn.net/gh13uy2ql0N5/article/details/78197806

版权

在2016年，Google旗下DeepMind实验室推出了WaveNet深度神经网络，在过去12个月中，DeepMind一直在努力大幅度提高模型的速度和质量，用于“生成能够产生比现有技术更好、更逼真的，语音原始音频波形”。

Google利用WaveNet技术，以英文/日文更新了Google Assistant的语音功能，可选择男性或女性。对于那些对虚拟助理有语音偏好的人来说，这是一个期待的选择。

新版本可以产生更高的波形分辨率以及比原来快1000倍的保真度。

为了理解WaveNet如何改进现有技术水平，了解文本到语音（TTS）或语音合成系统如何工作是非常有用的。

这些大多数都是基于所谓的concatenative TTS，它使用大量高质量录音数据库，从多个小时的单个人声收集数据。这些记录被分割成微小的chunks，然后将其组合或连接，以形成完整的话语。

然而，这些系统可能导致不自然的声音，并且也难以修改，因为每当需要一组改变（例如新的情绪或语调）时，需要纪录全新的数据库。

为了克服这些问题，有时使用称为parametric TTS的替代模型。这个模型不需要通过使用一系列关于语法和嘴型的规则和参数，来引导计算机生成的语音来连接声音。虽然省时省力，但这种方法创造的声音不那么自然。

WaveNet采取完全不同的方法。在论文中，我们描述了一个深刻的生成模型，可以从头开始创建单个波形，每次一个样本，每秒16,000个样本，以及各个声音之间的无缝转换。

由卷积神经网络的结构生成的原始WaveNet模型

它是使用卷积神经网络构建的，该网络在大量语音样本数据集上进行了训练。在这个训练阶段，网络确定了语音的底层结构，比如哪些音调是相互依存的，什么波形是现实的（哪些不是）。

然后训练好的网络一次合成了一个样本，每个生成的样本都考虑到前一个样本的属性。所产生的声音包含自然语调和其他功能，如嘴型。它的“口音”取决于它所接受的声音，打开了从混合数据集中创建任何数量的独特声音的可能性。与所有文本到语音系统一样，WaveNet使用文本输入，来告诉它应该产生哪些字以响应查询。

使用原始模型以如此高的保真度，建立声波在计算上是昂贵的，WaveNet带来了新的曙光，但并不是可以在现实世界中部署的。

但在过去12个月中，DeepMind的团队一直在努力开发一种，能够更快地生成波形的新版本。它现在也能够大规模运行，是第一个在Google最新的TPU云基础设施上推出的产品。

新的WaveNet改进模型仍然生成原始波形，但速度比原始模型快1000倍，意味着创建一秒钟的语音只需要50毫秒。事实上，该模型不仅仅是速度更快，而且更高的保真度，能够每秒产生24,000个采样波形。我们还将每个样本的分辨率从8位增加到16位，与光盘中使用的分辨率相同。

这使得新模型根据人类听众的测试更自然的发声。例如，美式英语发音的平均得分（MOS）为4.347（以1-5的scale），人类的语音评分也只有4.667。

新模型还保留了原始WaveNet的灵活性，使我们能够在训练阶段更好地利用大量数据。具体来说，我们可以使用来自多个语音的数据来训练网络。即使在所需输出语音中几乎没有训练数据可用，也可以用于生成高质量，细微的声音。

wavenet博客：http://suo.im/3i5AkL

WaveNet论文：https://arxiv.org/pdf/1609.03499.pdf

★推荐阅读★

初学者必读的八个趣味机器学习项目

长期招聘志愿者

加入「AI从业者社群」请备注个人信息

添加小鸡微信 liulailiuwang

关注