0. 题目
VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH
VAW-GAN用于语音中情感元素的分解和重组
1. 摘要
情感语音转换(EVC)旨在将语音情感从一种状态转换为另一种状态,同时保留语言内容和说话人身份。在本文中,我们通过变分自动编码Wasserstein生成对抗网络(VAW-GAN)研究语音中情感元素的纠缠和重组。我们提出了一个基于VAWGAN的基于扬声器的EVC框架,该框架包括两个VAW-GAN管道,一个用于频谱转换,另一个用于韵律转换。我们训练一个频谱编码器,使频谱特征中的情绪和韵律(F0)信息脱离纠缠;我们还训练了韵律编码器,以区分情感带来的韵律与语言内容信息带来的韵律。在运行时,频谱VAW-GAN的解码器以韵律VAW-GAN的输出为条件。声码器采用转换后的频谱和韵律特征来生成目标情感语音。实验验证了我们提出的方法在客观和主观评估中的有效性
关键词: emotional voice conversion, VAW-GAN, continuous wavelet transform
情感语音转换,VAW-GAN,连续小波变换
2. 简介
语音不仅通过词汇传达信息,还通过其韵律传达信息。 语音韵律会影响发声的句法和语义解释[1],即语言韵律。 它还显示一个人的情绪状态,即情绪韵律[2]。 情感语音转换是一种语音转换(VC)技术,用于将语音的情感韵律从一个语音转换到另一个语音,同时保留语言内容和说话人身份,如图1所示。EVC是一种用于许多应用程序的启用技术,例如文本转语音。 -语音[3-5],个性化语音合成[6、7]和会话机器人[8]
一般而言,语音转换旨在改变说话者在保留语言内容的同时保证语音的一致性[12]。 VC的早期研究包括高斯混合模型(GMM)[13],偏最小二乘回归[14]和稀疏表示[15-18]。 最近的深度学习方法,例如深度神经网络(DNN)[19&