语音合成(TTS)论文优选:HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

本文来自国立台湾大学,探讨如何在非自回归语音合成(TTS)系统中通过添加多层次韵律模块来提升合成语音的自然度。研究通过韵律模型学习并预测语音的韵律属性,包括节奏、语调和重读,以提高TTS的表达质量。实验表明,层次化的韵律模型在客观和主观评估中均表现出色。
摘要由CSDN通过智能技术生成

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS

本文出自国立台湾大学,主要在TTS系统上添加多层韵律模块来提供韵律相关的信息,使合成的语音更自然,文章更新2020.11.12(文章一直更新,不是最终版本,有些实验数据表缺失),详细文章地址https://arxiv.org/pdf/2011.06465v1.pdf

1 研究背景

语音的韵律(prosody)主要包括节奏(rhythm)、语调(intonation)、重读(stress)等多方面属性信息,而现在的TTS训练文本中不包含这些信息。当前,TTS输入文本序列最多包含了停顿等级信息,然后通过该信息控制各级停顿的长短,我们称该信息为时长信息(duration)。对于时长信息的处理,自回归模型通过attention来自动对齐,而非自回归模型中常常需要提供duration模块来预测每个音素对应的帧数信息。本文除了包含以上duration模块外还添加了prosody韵律模块,来提供以上隐含的韵律属性。

韵律信息的添加流程在TTS系统添加流程如图1所示:在训练阶段使用ruled-based 或者neural-based prosody feature来进行训练信息提取,然后训练prosody modle。在推理阶段可以使用文本音素级或者词级序列、先验分布模型和参考语音等信息通过训练的prosody model来获取属性信息。本文主要使用文本信息也就是图中1&#

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值