Uncovering Latent Style Factors for Expressive Speech Synthesis

最新推荐文章于 2022-04-26 14:22:13 发布

林林宋

最新推荐文章于 2022-04-26 14:22:13 发布

阅读量435

点赞数 1

分类专栏： paper笔记

原文链接：https://arxiv.org/pdf/1711.00520.pdf

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

最近拜读王宇轩的旧作，希望能顺着作者的思路窥得一点语音合成研究的方向。
这篇文章应该是宇轩大佬刚进谷歌发表的，2017年。应该是tacotron发表之后，GST的想法雏形，因此文章只放在axriv上边。

abstract

本文旨在控制语音合成的韵律，在tacotron的基础上加"style token"，从而不需要注释的数据，可以直接通过data-driven的方式，学到各种韵律的变化。变长的句子用定长的style factor表示，从而在某种可预测的，全局一致的层面控制韵律。

introduction

intelligibility: 内容表达完整
naturalness: 像人类的发音
expressiveness: 韵律正确
很多情况下，TTS模型仅有文本输入，而没有声学参考。韵律的变化本身就是多尺度的。pitch局部的变化以及发音时长会传递语义信息。全局基频的包络传递了情感。如果训练数据中基频变化很大，合成就很有挑战性。或者即使训练数据包含很多中性的韵律，在很小的时间分辨率上也会有韵律变化。
style token可以通过无监督的方式学习，并且不需要注释数据。在tacotron上的尝试证明了style token确实和韵律相关，实现一定程度的可控。

model architecture

基于tacotron的结构加一个style token的encoder。
在这里插入图片描述
也可以通过其他方法生成多个韵律（比如启动decoder的初始态,ref【6】）。使用attention-based style token的好处：（1）attention是一个很好的解码器，可以把整体的韵律风格拆解成可解释的独立的韵律特征；各个独立的特征组合起来可以组成整个特征。（2）注意机制在解码器的时间分辨率上学习样式标记的组合，从而支持时变韵律操作。
style encoder没有输入（？？没搞明白那应该怎么办/？）
text-encoder输入是文本向量，因此可以认为style encoder只编码文本无关的向量。

Related Work

在HMM-based TTS时代就有对韵律和说话风格建模，比如，【7】首先把训练集聚类，然后用HMM-based 聚类自适应训练。【8】提出对预定义的style vector估计转移矩阵。
和HMM-based的思路相似，NN-based的方法更简单一些，比如one-hot speaker codes。模型可以学到说话人的整体特征，但是并不能控制特定的说话风格。条件输入被定义为control vector。【12】用一个隐向量表示control vector，但不同于本文的是，（1）网络不同，（2）学习一套预定义的情感分类之间的细微差别，但本文没有预定义，泛化性更好。
总结本文和之前工作的区别：（1）证明了prosody/style control是端到端语音合成的一部分，之前仅在声学模型中表达prosody和style. （2）从attention中得到可微的style token，得到的是一组相互独立的韵律特征，可以根据使用需求灵活的再组合。（3）无监督学习，因此更加可信和低成本。可以容易的自组合，也可以很好的和其他特定的control vector一起起作用。

results

数据集大部分是neutral prosody，有一个小的子集包含更多表示（游戏主持，笑话，诗歌），使得模型学到这些变化（即使只占数据集的一部分）。
在这里插入图片描述

林林宋

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Uncovering Latent Style Factors for Expressive Speech Synthesis

最近拜读王宇轩的旧作，希望能顺着作者的思路窥得一点语音合成研究的方向。这篇文章应该是宇轩大佬刚进谷歌发表的，2017年。应该是tacotron发表之后，GST的想法雏形，因此文章只放在axriv上边。abstract本文旨在控制语音合成的韵律，在tacotron的基础上加"style token"，从而不需要注释的数据，可以直接通过data-driven的方式，学到各种韵律的变化。变长的句子...
复制链接

扫一扫

专栏目录