为了让语音服务有更多讲话风格 Amazon发表文字转语音系统

Amazon近日发表了最新的文字转语音系统,透过生成神经网络,经过几个小时的录音档训练,就能学会新闻播报员的说话风格,这项进展是为了Alexa和其他语音服务铺路,期望在不同的对话内容,语音服务能用不同的讲话风格,增加使用者体验。

当人类说话时,会根据不同内容采用不同的说话风格,举例来说,播报新闻头条的主播和讲床边故事给小孩听的父母,会用非常不一样的说话风格,来传达自己的意思,因此,Amazon认为,对于使用者而言,合成的语音若能够更像真人,有讲话风格的转换,将能带给使用者更好的使用体验。

Amazon开发的神经文字转语音(Neural text-to-speech, NTTS)方法,利用增加大量现有的新闻广播录音文件,系统可以在经过短短几小时的录音档训练后,建立新闻领域的声音,过去用连接式合成方法的技术,是不可能达到这样的成果。

Amazon的NTTS系统包含两个组件,一个是将音位(phonemes)序列转换为声谱序列的神经网络,音位为语言的最基本单位,另外一个组件是将声谱序列转换为连续声音讯号的语音合成器。第一个神经网络是Sequence2sequence的模型,也就是说该模型不仅会根据输入计算输出,还会考虑输出序列的位置,输出的声谱是用梅尔声谱(mel-spectrograms)的方式,透过频率来强调人脑处理说话的声音特征。

不过,当大量数据集训练用于建立通用的连接式合成时,这种Sequence2sequence的方法可以制造出高质量的声音,但是,这些数据集缺乏代表特定讲话风格的独特语音特征,即使产生的语音质量高,却在多样化的表达呈现上有所限制,像是音调,停顿和节奏。另一方面,若找来朗读人员建立相似大小的数据集,需要数十个小时的音文件才能训练该模型,不但耗时,成本也十分昂贵。

Amazon发现可以透过调整Sequence2sequence的模型,利用大量风格中立的数据来训练特殊风格语音合成器,Amazon不只用音位序列和梅尔声谱,来训练该模型,还用了风格编译程序,来辨识训练样本的说话风格,透过这个方法,Amazon就能够用风格中立的语音数据,在短短的几小时内,训练出高质量且多样化风格的模型。

最后,模型输出的成果需经过语音合成器,该语音合成器是将梅尔声谱转换为声波形式的神经网络,为了能够使其成为通用的网络,语音合成器必须能够仿真任何语音、说话者和说话风格的发音,因此,该系统采用了任何说话者的梅尔声谱。
文章转自:胜博发公益之家

转载于:https://my.oschina.net/u/3899617/blog/2885685

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值