Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

最新推荐文章于 2024-08-19 20:00:00 发布

林林宋

最新推荐文章于 2024-08-19 20:00:00 发布

阅读量227

点赞数

分类专栏： paper笔记文章标签：深度学习人工智能

原文链接：https://arxiv.org/abs/2011.06465

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

会议：SLT2021
单位：台湾国立
作者：Chung-Ming Chien Hung-yi Lee
demo page

文章目录

abstract

motivation：TTS模型训练时候可以加入各种预先提取的特征（pitch， energy，etc），但是infer时候准确的预测这些特征还是比较难的。对于非自回归的TTS，提供fine-grained prosody feature本身就减少了TTS任务的复杂度。
method：提出一个层级结构，基于word-level prosody预测phn-level prosody。作者认为，word-level prosody可以更好的建模meaning of the sentence, and the speaker’s intention or sentiment（句子的语义，说话的情绪）。
main contribution：

支出合成质量和prosody预测的准确度之间是trade off的关系；
比较了不同方法提取基频对于语音质量和韵律自然度的关系；
提出层级结构，phn level proosdy conditioned on word-level prosody

introduction

在这里插入图片描述

training：之前工作的prosody features可以从以下方法获得

额外的工具包提取的基频；
reference encoder提取的prosody feature，将feature的维度设置的尽可能小，以使其主要包含韵律信息，而不要包含其他的文本相关信息（phn seq会提供）。
inference：需要生成需要的韵律信息
从phn seq中预测韵律信息；
从word-level features中预测韵律信息；
从ref utt中提取韵律信息进行模仿，而不考虑输入的文本是什么，主要用于风格迁移的任务中。
从先验分布中采样韵律信息。

韵律的特征本身是和语言有关的，之前的工作提出了多层级的韵律建模，但是infer时候prosody emb的生成是和文本无关的，而本文是相关的。我们的模型与任何预训练的词嵌入兼容，因此词级韵律预测受益于广泛开发的从大量未标记文本中预训练的词表示模型。

method

Prosody extraction

从GT mel从提取韵律信息，然后处理成和phn-level feature一样维度的特征，相加之后送入FastSpeech decoder。

Rule-based prosody extractors

提取每一帧的F0和energy，然后按照token duration进行平均（token是phn/word的定义）。具体求平均的方式见ref【7】，然后将平均值量化为256 bins，然后通过LUT的方式转换成prosody embedding。

Neural-based prosody extractors

在这里插入图片描述
根据prosody extractor的结果训练prosody predictor，固定reference encoder的参数，而且在infer的时候不许呀reference encoder。

Hierarchical prosody modeling

在这里插入图片描述

word level feature可以比phn-level进行更加准确的韵律预测，但是分辨率低，如果没有足够的信息补充，预测的mel spec会比较模糊。因此设计层级结构，将两个维度的特征结合起来。

experiment

数据集：LJSpeech

林林宋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

会议：SLT2021单位：台湾国立作者：Chung-Ming Chien Hung-yi Leedemo page文章目录abstractintroductionmethodProsody extractionRule-based prosody extractorsNeural-based prosody extractorsHierarchical prosody modelingexperimentabstractmotivation：TTS模型训练时候可以加入各种预先提取的特征（pitc
复制链接

扫一扫

专栏目录