声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS
本文出自国立台湾大学,主要在TTS系统上添加多层韵律模块来提供韵律相关的信息,使合成的语音更自然,文章更新2020.11.12(文章一直更新,不是最终版本,有些实验数据表缺失),详细文章地址https://arxiv.org/pdf/2011.06465v1.pdf
1 研究背景
语音的韵律(prosody)主要包括节奏(rhythm)、语调(intonation)、重读(stress)等多方面属性信息,而现在的TTS训练文本中不包含这些信息。当前,TTS输入文本序列最多包含了停顿等级信息,然后通过该信息控制各级停顿的长短,我们称该信息为时长信息(duration)。对于时长信息的处理,自回归模型通过attention来自动对齐,而非自回归模型中常常需要提供duration模块来预测每个音素对应的帧数信息。本文除了包含以上duration模块外还添加了prosody韵律模块,来提供以上隐含的韵律属性。
韵律信息的添加流程在TTS系统添加流程如图1所示:在训练阶段使用ruled-based 或者neural-based prosody feature来进行训练信息提取,然后训练prosody modle。在推理阶段可以使用文本音素级或者词级序列、先验分布模型和参考语音等信息通过训练的prosody model来获取属性信息。本文主要使用文本信息也就是图中1&#