语音合成（TTS)论文优选：HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

最新推荐文章于 2023-03-08 15:36:35 发布

我叫永强

最新推荐文章于 2023-03-08 15:36:35 发布

阅读量805

点赞数 3

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238191

版权

本文来自国立台湾大学，探讨如何在非自回归语音合成（TTS）系统中通过添加多层次韵律模块来提升合成语音的自然度。研究通过韵律模型学习并预测语音的韵律属性，包括节奏、语调和重读，以提高TTS的表达质量。实验表明，层次化的韵律模型在客观和主观评估中均表现出色。

摘要由CSDN通过智能技术生成

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

本文出自国立台湾大学，主要在TTS系统上添加多层韵律模块来提供韵律相关的信息，使合成的语音更自然，文章更新2020.11.12（文章一直更新，不是最终版本，有些实验数据表缺失），详细文章地址https://arxiv.org/pdf/2011.06465v1.pdf

1 研究背景

语音的韵律（prosody)主要包括节奏（rhythm)、语调（intonation)、重读（stress)等多方面属性信息，而现在的TTS训练文本中不包含这些信息。当前，TTS输入文本序列最多包含了停顿等级信息，然后通过该信息控制各级停顿的长短，我们称该信息为时长信息（duration)。对于时长信息的处理，自回归模型通过attention来自动对齐，而非自回归模型中常常需要提供duration模块来预测每个音素对应的帧数信息。本文除了包含以上duration模块外还添加了prosody韵律模块，来提供以上隐含的韵律属性。

韵律信息的添加流程在TTS系统添加流程如图1所示：在训练阶段使用ruled-based 或者neural-based prosody feature来进行训练信息提取，然后训练prosody modle。在推理阶段可以使用文本音素级或者词级序列、先验分布模型和参考语音等信息通过训练的prosody model来获取属性信息。本文主要使用文本信息也就是图中1&#

最低0.47元/天解锁文章

我叫永强

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成（TTS)论文优选：HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS本文出自国立台湾大学，主要在TTS系统上添加多层韵律模块来提供韵律相关的信息，使合成的语音更自然，文章更新2020.11.12（文章一直更新，不是最终版本，有些实验数据表缺失），详细文章地址ht
复制链接

扫一扫