Fine-grained prosody modeling in neural speech synthesis using ToBI representation

最新推荐文章于 2024-08-08 22:52:20 发布

林林宋

最新推荐文章于 2024-08-08 22:52:20 发布

阅读量276

点赞数

分类专栏： paper笔记文章标签：语音识别深度学习人工智能

原文链接：https://www.isca-speech.org/archive/pdfs/interspeech_2021/zou21_interspeech.pdf

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

作者：Yuxiang Zou
单位：Bytedance AI

文章目录

abstract

ToBI (Tones and Break Indices)，英文的韵律标记
本文在做英文语音合成，引入ToBI (Tones and Break Indices)进行细粒度的韵律建模，使用预训练的NLP模型ELECTRA，基于ToBI标签finetune，预测四种标签。然后和tacotron系统配合，完成韵律粒度更细致可控的英文合成。

proposed method

在这里插入图片描述

包含两个部分，文本前端（预测ToBI label），以及TTS声学模型。

front-end

在这里插入图片描述
预测四种标记（word level），因此是一个序列建模的问题

Pitch accents 对单词的音节标记轻/重读音， $L^* /H^*/L^*+H/H^*+L$
Boundary tones：每一个完整的语调短语边界，默认是 $H\%/L\%$
Phrase accents：pitch accent和boundary tone的边界，默认是 $H - / L -$
Break indices：4/3/2/1，不同程度的停顿

虽然无监督的方法在NLP任务中已经广泛应用，但是因为ToBI的数据量比较少，因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder，后边会接判别器，判断输入的token是real or false。对ELECTRA进行finetune，输入768-d的WordPiece token ，CE loss预测上述四种label。

TTS

在这里插入图片描述
-tacotron结构

因为输入的韵律格式有多种粒度，因此可以更加自如的进行韵律控制。

experiment

dataset：1.5w句的native speaker，专家标注的ToBI标签

林林宋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Fine-grained prosody modeling in neural speech synthesis using ToBI representation

作者：Yuxiang Zou单位：Bytedance AI文章目录abstractproposed methodfront-endTTSexperimentabstractToBI (Tones and Break Indices)，英文的韵律标记本文在做英文语音合成，引入ToBI (Tones and Break Indices)进行细粒度的韵律建模，使用预训练的NLP模型ELECTRA，基于ToBI标签finetune，预测四种标签。然后和tacotron系统配合，完成韵律粒度更细致可控的英
复制链接

扫一扫

专栏目录