速度快1000倍!DeepMind更新WaveNet用于Google助手

在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。


Google利用WaveNet技术,以英文/日文更新了Google Assistant的语音功能,可选择男性或女性。对于那些对虚拟助理有语音偏好的人来说,这是一个期待的选择。



新版本可以产生更高的波形分辨率以及比原来快1000倍的保真度。


计算方法


为了理解WaveNet如何改进现有技术水平,了解文本到语音(TTS)或语音合成系统如何工作是非常有用的。


这些大多数都是基于所谓的concatenative TTS,它使用大量高质量录音数据库,从多个小时的单个人声收集数据。这些记录被分割成微小的chunks,然后将其组合或连接,以形成完整的话语。


然而,这些系统可能导致不自然的声音,并且也难以修改,因为每当需要一组改变(例如新的情绪或语调)时,需要纪录全新的数据库。


为了克服这些问题,有时使用称为parametric TTS的替代模型。这个模型不需要通过使用一系列关于语法和嘴型的规则和参数,来引导计算机生成的语音来连接声音。虽然省时省力,但这种方法创造的声音不那么自然。


WaveNet采取完全不同的方法。在论文中,我们描述了一个深刻的生成模型,可以从头开始创建单个波形,每次一个样本,每秒16,000个样本,以及各个声音之间的无缝转换。



由卷积神经网络的结构生成的原始WaveNet模型


它是使用卷积神经网络构建的,该网络在大量语音样本数据集上进行了训练。在这个训练阶段,网络确定了语音的底层结构,比如哪些音调是相互依存的,什么波形是现实的(哪些不是)。


然后训练好的网络一次合成了一个样本,每个生成的样本都考虑到前一个样本的属性。所产生的声音包含自然语调和其他功能,如嘴型。它的“口音”取决于它所接受的声音,打开了从混合数据集中创建任何数量的独特声音的可能性。与所有文本到语音系统一样,WaveNet使用文本输入,来告诉它应该产生哪些字以响应查询。


使用原始模型以如此高的保真度,建立声波在计算上是昂贵的,WaveNet带来了新的曙光,但并不是可以在现实世界中部署的。


但在过去12个月中,DeepMind的团队一直在努力开发一种,能够更快地生成波形的新版本。它现在也能够大规模运行,是第一个在Google最新的TPU云基础设施上推出的产品。



新的WaveNet改进模型仍然生成原始波形,但速度比原始模型快1000倍,意味着创建一秒钟的语音只需要50毫秒。事实上,该模型不仅仅是速度更快,而且更高的保真度,能够每秒产生24,000个采样波形。我们还将每个样本的分辨率从8位增加到16位,与光盘中使用的分辨率相同。


这使得新模型根据人类听众的测试更自然的发声。例如,美式英语发音的平均得分(MOS)为4.347(以1-5的scale),人类的语音评分也只有4.667。



新模型还保留了原始WaveNet的灵活性,使我们能够在训练阶段更好地利用大量数据。具体来说,我们可以使用来自多个语音的数据来训练网络。即使在所需输出语音中几乎没有训练数据可用,也可以用于生成高质量,细微的声音。


wavenet博客:http://suo.im/3i5AkL


WaveNet论文:https://arxiv.org/pdf/1609.03499.pdf


推荐阅读

初学者必读的八个趣味机器学习项目

AMD深度学习开源战略

香港科技大学PyTorch四日速成教程

北京龙泉寺:清华北大学子排队出家

香港科技大学三天速成TensorFlow教程 

谷歌新品发布会:赋能AI 三大原则 软硬结合

深度学习软件安装指南

谷歌教你零编程基础玩转机器学习

中科院谭铁牛爱徒研发碟中谍中的步态识别技术

专访深度学习之父Geoffrey Hinton


长期招聘志愿者

加入「AI从业者社群」请备注个人信息

添加小鸡微信  liulailiuwang


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值