为了让语音服务有更多讲话风格 Amazon发表文字转语音系统

最新推荐文章于 2024-08-30 19:49:24 发布

chunmingying0152

最新推荐文章于 2024-08-30 19:49:24 发布

阅读量192

点赞数

文章标签：人工智能

原文链接：https://my.oschina.net/u/3899617/blog/2885685

版权

Amazon近日发表了最新的文字转语音系统，透过生成神经网络，经过几个小时的录音档训练，就能学会新闻播报员的说话风格，这项进展是为了Alexa和其他语音服务铺路，期望在不同的对话内容，语音服务能用不同的讲话风格，增加使用者体验。

当人类说话时，会根据不同内容采用不同的说话风格，举例来说，播报新闻头条的主播和讲床边故事给小孩听的父母，会用非常不一样的说话风格，来传达自己的意思，因此，Amazon认为，对于使用者而言，合成的语音若能够更像真人，有讲话风格的转换，将能带给使用者更好的使用体验。

Amazon开发的神经文字转语音（Neural text-to-speech, NTTS）方法，利用增加大量现有的新闻广播录音文件，系统可以在经过短短几小时的录音档训练后，建立新闻领域的声音，过去用连接式合成方法的技术，是不可能达到这样的成果。

Amazon的NTTS系统包含两个组件，一个是将音位（phonemes）序列转换为声谱序列的神经网络，音位为语言的最基本单位，另外一个组件是将声谱序列转换为连续声音讯号的语音合成器。第一个神经网络是Sequence2sequence的模型，也就是说该模型不仅会根据输入计算输出，还会考虑输出序列的位置，输出的声谱是用梅尔声谱（mel-spectrograms）的方式，透过频率来强调人脑处理说话的声音特征。

不过，当大量数据集训练用于建立通用的连接式合成时，这种Sequence2sequence的方法可以制造出高质量的声音，但是，这些数据集缺乏代表特定讲话风格的独特语音特征，即使产生的语音质量高，却在多样化的表达呈现上有所限制，像是音调，停顿和节奏。另一方面，若找来朗读人员建立相似大小的数据集，需要数十个小时的音文件才能训练该模型，不但耗时，成本也十分昂贵。

Amazon发现可以透过调整Sequence2sequence的模型，利用大量风格中立的数据来训练特殊风格语音合成器，Amazon不只用音位序列和梅尔声谱，来训练该模型，还用了风格编译程序，来辨识训练样本的说话风格，透过这个方法，Amazon就能够用风格中立的语音数据，在短短的几小时内，训练出高质量且多样化风格的模型。

最后，模型输出的成果需经过语音合成器，该语音合成器是将梅尔声谱转换为声波形式的神经网络，为了能够使其成为通用的网络，语音合成器必须能够仿真任何语音、说话者和说话风格的发音，因此，该系统采用了任何说话者的梅尔声谱。
文章转自：胜博发公益之家

转载于:https://my.oschina.net/u/3899617/blog/2885685

chunmingying0152

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为了让语音服务有更多讲话风格 Amazon发表文字转语音系统

Amazon近日发表了最新的文字转语音系统，透过生成神经网络，经过几个小时的录音档训练，就能学会新闻播报员的说话风格，这项进展是为了Alexa和其他语音服务铺路，期望在不同的对话内容，语音服务能用不同的讲话风格，增加使用者体验。当人类说话时，会根据不同内容采用不同的说话风格，举例来说，播...
复制链接

扫一扫