SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

最新推荐文章于 2021-11-15 20:38:54 发布

ruclion

最新推荐文章于 2021-11-15 20:38:54 发布

阅读量483

点赞数

分类专栏：研三-语音合成论文文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013625492/article/details/113003670

版权

本文提出了一种基于变分自动编码Wasserstein生成对抗网络（VAW-GAN）的情感语音转换框架，旨在分解并重组语音中的情感元素。通过频谱和韵律转换的两个并行管道，实现非并行数据上的情感语音转换。利用连续小波变换（CWT）来表征F0，以更好地处理韵律转换。实验表明该方法在客观和主观评估中有效。

摘要由CSDN通过智能技术生成

0. 题目

VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

VAW-GAN用于语音中情感元素的分解和重组

1. 摘要

情感语音转换（EVC）旨在将语音情感从一种状态转换为另一种状态，同时保留语言内容和说话人身份。在本文中，我们通过变分自动编码Wasserstein生成对抗网络（VAW-GAN）研究语音中情感元素的纠缠和重组。我们提出了一个基于VAWGAN的基于扬声器的EVC框架，该框架包括两个VAW-GAN管道，一个用于频谱转换，另一个用于韵律转换。我们训练一个频谱编码器，使频谱特征中的情绪和韵律（F0）信息脱离纠缠；我们还训练了韵律编码器，以区分情感带来的韵律与语言内容信息带来的韵律。在运行时，频谱VAW-GAN的解码器以韵律VAW-GAN的输出为条件。声码器采用转换后的频谱和韵律特征来生成目标情感语音。实验验证了我们提出的方法在客观和主观评估中的有效性

关键词: emotional voice conversion, VAW-GAN, continuous wavelet transform

情感语音转换，VAW-GAN，连续小波变换

2. 简介

语音不仅通过词汇传达信息，还通过其韵律传达信息。语音韵律会影响发声的句法和语义解释[1]，即语言韵律。它还显示一个人的情绪状态，即情绪韵律[2]。情感语音转换是一种语音转换（VC）技术，用于将语音的情感韵律从一个语音转换到另一个语音，同时保留语言内容和说话人身份，如图1所示。EVC是一种用于许多应用程序的启用技术，例如文本转语音。 -语音[3-5]，个性化语音合成[6、7]和会话机器人[8]

一般而言，语音转换旨在改变说话者在保留语言内容的同时保证语音的一致性[12]。 VC的早期研究包括高斯混合模型（GMM）[13]，偏最小二乘回归[14]和稀疏表示[15-18]。最近的深度学习方法，例如深度神经网络（DNN）[19&