Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

会议:SLT2021
单位:台湾国立
作者:Chung-Ming Chien Hung-yi Lee
demo page

abstract

motivation:TTS模型训练时候可以加入各种预先提取的特征(pitch, energy,etc),但是infer时候准确的预测这些特征还是比较难的。对于非自回归的TTS,提供fine-grained prosody feature本身就减少了TTS任务的复杂度。
method:提出一个层级结构,基于word-level prosody预测phn-level prosody。作者认为,word-level prosody可以更好的建模meaning of the sentence, and the speaker’s intention or sentiment(句子的语义,说话的情绪)。
main contribution:

  • 支出合成质量和prosody预测的准确度之间是trade off的关系;
  • 比较了不同方法提取基频对于语音质量和韵律自然度的关系;
  • 提出层级结构,phn level proosdy conditioned on word-level prosody

introduction

在这里插入图片描述

training:之前工作的prosody features可以从以下方法获得

  • 额外的工具包提取的基频;
  • reference encoder提取的prosody feature,将feature的维度设置的尽可能小,以使其主要包含韵律信息,而不要包含其他的文本相关信息(phn seq会提供)。
    inference:需要生成需要的韵律信息
  • 从phn seq中预测韵律信息;
  • 从word-level features中预测韵律信息;
  • 从ref utt中提取韵律信息进行模仿,而不考虑输入的文本是什么,主要用于风格迁移的任务中。
  • 从先验分布中采样韵律信息。

韵律的特征本身是和语言有关的,之前的工作提出了多层级的韵律建模,但是infer时候prosody emb的生成是和文本无关的,而本文是相关的。我们的模型与任何预训练的词嵌入兼容,因此词级韵律预测受益于广泛开发的从大量未标记文本中预训练的词表示模型。

method

Prosody extraction

从GT mel从提取韵律信息,然后处理成和phn-level feature一样维度的特征,相加之后送入FastSpeech decoder。

Rule-based prosody extractors

提取每一帧的F0和energy,然后按照token duration进行平均(token是phn/word的定义)。具体求平均的方式见ref【7】,然后将平均值量化为256 bins,然后通过LUT的方式转换成prosody embedding。

Neural-based prosody extractors

在这里插入图片描述
根据prosody extractor的结果训练prosody predictor,固定reference encoder的参数,而且在infer的时候不许呀reference encoder。

Hierarchical prosody modeling

在这里插入图片描述

  • word level feature可以比phn-level进行更加准确的韵律预测,但是分辨率低,如果没有足够的信息补充,预测的mel spec会比较模糊。因此设计层级结构,将两个维度的特征结合起来。

experiment

  • 数据集:LJSpeech
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值