Controllable Emotion Transfer For End-to-End Speech Synthesis

林林宋

已于 2022-03-21 15:10:46 修改

阅读量3.9k

点赞数

分类专栏： paper笔记文章标签：深度学习

于 2022-03-20 16:38:13 首次发布

本文链接：https://blog.csdn.net/qq_40168949/article/details/123615686

版权

162 篇文章 24 订阅

订阅专栏

motivation：控制TTS合成的韵律，并实现情感强度的显示可调节；

在这里插入图片描述

图像上用Gram matrix表征图像的局部统计特征，该方法也被引入语音计算mel谱频率域特征的信息，比如loudness，stress, speed, pitch, etc, 这些都和情感密切相关。
因此，可以把reference encoder编码的gram matrix看作是不同conv filter提取的频率特征表示，是特征在提取过程中量化表示的结果。
emotion scalar：可以通过调节gram matrix的数值，实现对情感强度的控制。训练过程中，emotion scalar=1；该数值设置不能无限大，否则会变成另外一种情感或者模型失效；
通过minimize style loss，实现target mel和reference mel情感风格的高度接近。

其中，I/G为
Gram Matrix在数学形式上是向量内积延伸到矩阵内积的结果

在这里插入图片描述

格拉姆矩阵用于度量各个维度自己的特性以及各个维度之间的关系。内积之后得到的多尺度矩阵中，对角线元素提供了不同特征图各自的信息，其余元素提供了不同特征图之间的相关信息。这样一个矩阵，既能体现出有哪些特征，又能体现出不同特征间的紧密程度。

在这里插入图片描述

用三个不同强度的scale控制合成的情感，然后让受测者对听到的语音进行情感强度的选择，对角线数值越大，说明scale对情感强度的控制越明显。
该方法的主要优点在于可以控制情感的强弱，但是对于情感类别的控制合成任务上，效果和one-hot标签的情感区别不大。（one-hot情感标签的前提是情感之间没有相关性）。