Controllable Emotion Transfer For End-to-End Speech Synthesis

abstract

motivation:控制TTS合成的韵律,并实现情感强度的显示可调节;

在这里插入图片描述

methods

  • Tacotron2-GMM attention框架
  • reference encoder:CNN block+GRU
  • emotion classfier:7种情感的分类
  • loss函数
    在这里插入图片描述

style loss

  • 图像上用Gram matrix表征图像的局部统计特征,该方法也被引入语音计算mel谱频率域特征的信息,比如loudness,stress, speed, pitch, etc, 这些都和情感密切相关。

  • 因此,可以把reference encoder编码的gram matrix看作是不同conv filter提取的频率特征表示,是特征在提取过程中量化表示的结果。

  • emotion scalar:可以通过调节gram matrix的数值,实现对情感强度的控制。训练过程中,emotion scalar=1;该数值设置不能无限大,否则会变成另外一种情感或者模型失效;

  • 通过minimize style loss,实现target mel和reference mel情感风格的高度接近。
    在这里插入图片描述
    其中,I/G为
    在这里插入图片描述

  • Gram Matrix在数学形式上是向量内积延伸到矩阵内积的结果

在这里插入图片描述

  • 格拉姆矩阵用于度量各个维度自己的特性以及各个维度之间的关系。内积之后得到的多尺度矩阵中,对角线元素提供了不同特征图各自的信息,其余元素提供了不同特征图之间的相关信息。这样一个矩阵,既能体现出有哪些特征,又能体现出不同特征间的紧密程度。

主观测试

在这里插入图片描述

  • 用三个不同强度的scale控制合成的情感,然后让受测者对听到的语音进行情感强度的选择,对角线数值越大,说明scale对情感强度的控制越明显。
  • 该方法的主要优点在于可以控制情感的强弱,但是对于情感类别的控制合成任务上,效果和one-hot标签的情感区别不大。(one-hot情感标签的前提是情感之间没有相关性)。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值