Uncovering Latent Style Factors for Expressive Speech Synthesis

最近拜读王宇轩的旧作,希望能顺着作者的思路窥得一点语音合成研究的方向。
这篇文章应该是宇轩大佬刚进谷歌发表的,2017年。应该是tacotron发表之后,GST的想法雏形,因此文章只放在axriv上边。

abstract

本文旨在控制语音合成的韵律,在tacotron的基础上加"style token",从而不需要注释的数据,可以直接通过data-driven的方式,学到各种韵律的变化。变长的句子用定长的style factor表示,从而在某种可预测的,全局一致的层面控制韵律。

introduction

intelligibility: 内容表达完整
naturalness: 像人类的发音
expressiveness: 韵律正确
 很多情况下,TTS模型仅有文本输入,而没有声学参考。韵律的变化本身就是多尺度的。pitch局部的变化以及发音时长会传递语义信息。全局基频的包络传递了情感。如果训练数据中基频变化很大,合成就很有挑战性。或者即使训练数据包含很多中性的韵律,在很小的时间分辨率上也会有韵律变化。
 style token可以通过无监督的方式学习,并且不需要注释数据。在tacotron上的尝试证明了style token确实和韵律相关,实现一定程度的可控。

model architecture

基于tacotron的结构加一个style token的encoder。
在这里插入图片描述
也可以通过其他方法生成多个韵律(比如启动decoder的初始态,ref【6】)。使用attention-based style token的好处:(1)attention是一个很好的解码器,可以把整体的韵律风格拆解成可解释的独立的韵律特征;各个独立的特征组合起来可以组成整个特征。(2)注意机制在解码器的时间分辨率上学习样式标记的组合,从而支持时变韵律操作。
style encoder没有输入(??没搞明白那应该怎么办/?)
text-encoder输入是文本向量,因此可以认为style encoder只编码文本无关的向量。

Related Work

 在HMM-based TTS时代就有对韵律和说话风格建模,比如,【7】首先把训练集聚类,然后用HMM-based 聚类自适应训练。【8】提出对预定义的style vector估计转移矩阵。
 和HMM-based的思路相似,NN-based的方法更简单一些,比如one-hot speaker codes。模型可以学到说话人的整体特征,但是并不能控制特定的说话风格。条件输入被定义为control vector。【12】用一个隐向量表示control vector,但不同于本文的是,(1)网络不同,(2)学习一套预定义的情感分类之间的细微差别,但本文没有预定义,泛化性更好。
 总结本文和之前工作的区别:(1)证明了prosody/style control是端到端语音合成的一部分,之前仅在声学模型中表达prosody和style. (2)从attention中得到可微的style token,得到的是一组相互独立的韵律特征,可以根据使用需求灵活的再组合。(3)无监督学习,因此更加可信和低成本。可以容易的自组合,也可以很好的和其他特定的control vector一起起作用。

results

数据集大部分是neutral prosody,有一个小的子集包含更多表示(游戏主持,笑话,诗歌),使得模型学到这些变化(即使只占数据集的一部分)。
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值