SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

本文提出了一种基于变分自动编码Wasserstein生成对抗网络(VAW-GAN)的情感语音转换框架,旨在分解并重组语音中的情感元素。通过频谱和韵律转换的两个并行管道,实现非并行数据上的情感语音转换。利用连续小波变换(CWT)来表征F0,以更好地处理韵律转换。实验表明该方法在客观和主观评估中有效。
摘要由CSDN通过智能技术生成

0. 题目

VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

VAW-GAN用于语音中情感元素的分解和重组

1. 摘要

情感语音转换(EVC)旨在将语音情感从一种状态转换为另一种状态,同时保留语言内容和说话人身份。在本文中,我们通过变分自动编码Wasserstein生成对抗网络(VAW-GAN)研究语音中情感元素的纠缠和重组。我们提出了一个基于VAWGAN的基于扬声器的EVC框架,该框架包括两个VAW-GAN管道,一个用于频谱转换,另一个用于韵律转换。我们训练一个频谱编码器,使频谱特征中的情绪和韵律(F0)信息脱离纠缠;我们还训练了韵律编码器,以区分情感带来的韵律与语言内容信息带来的韵律。在运行时,频谱VAW-GAN的解码器以韵律VAW-GAN的输出为条件。声码器采用转换后的频谱和韵律特征来生成目标情感语音。实验验证了我们提出的方法在客观和主观评估中的有效性

关键词: emotional voice conversion, VAW-GAN, continuous wavelet transform

情感语音转换,VAW-GAN,连续小波变换

2. 简介

语音不仅通过词汇传达信息,还通过其韵律传达信息。 语音韵律会影响发声的句法和语义解释[1],即语言韵律。 它还显示一个人的情绪状态,即情绪韵律[2]。 情感语音转换是一种语音转换(VC)技术,用于将语音的情感韵律从一个语音转换到另一个语音,同时保留语言内容和说话人身份,如图1所示。EVC是一种用于许多应用程序的启用技术,例如文本转语音。 -语音[3-5],个性化语音合成[6、7]和会话机器人[8]

 

一般而言,语音转换旨在改变说话者在保留语言内容的同时保证语音的一致性[12]。 VC的早期研究包括高斯混合模型(GMM)[13],偏最小二乘回归[14]和稀疏表示[15-18]。 最近的深度学习方法,例如深度神经网络(DNN)[19&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值