SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

0. 题目

VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

VAW-GAN用于语音中情感元素的分解和重组

1. 摘要

情感语音转换(EVC)旨在将语音情感从一种状态转换为另一种状态,同时保留语言内容和说话人身份。在本文中,我们通过变分自动编码Wasserstein生成对抗网络(VAW-GAN)研究语音中情感元素的纠缠和重组。我们提出了一个基于VAWGAN的基于扬声器的EVC框架,该框架包括两个VAW-GAN管道,一个用于频谱转换,另一个用于韵律转换。我们训练一个频谱编码器,使频谱特征中的情绪和韵律(F0)信息脱离纠缠;我们还训练了韵律编码器,以区分情感带来的韵律与语言内容信息带来的韵律。在运行时,频谱VAW-GAN的解码器以韵律VAW-GAN的输出为条件。声码器采用转换后的频谱和韵律特征来生成目标情感语音。实验验证了我们提出的方法在客观和主观评估中的有效性

关键词: emotional voice conversion, VAW-GAN, continuous wavelet transform

情感语音转换,VAW-GAN,连续小波变换

2. 简介

语音不仅通过词汇传达信息,还通过其韵律传达信息。 语音韵律会影响发声的句法和语义解释[1],即语言韵律。 它还显示一个人的情绪状态,即情绪韵律[2]。 情感语音转换是一种语音转换(VC)技术,用于将语音的情感韵律从一个语音转换到另一个语音,同时保留语言内容和说话人身份,如图1所示。EVC是一种用于许多应用程序的启用技术,例如文本转语音。 -语音[3-5],个性化语音合成[6、7]和会话机器人[8]

 

一般而言,语音转换旨在改变说话者在保留语言内容的同时保证语音的一致性[12]。 VC的早期研究包括高斯混合模型(GMM)[13],偏最小二乘回归[14]和稀疏表示[15-18]。 最近的深度学习方法,例如深度神经网络(DNN)[19&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
slt618-2021是指2021SLT618这个事件。SLT618是一种信号灯技术,用于车辆交通控制。在2021年,许多城市采用了先进的SLT618信号灯系统来提高交通效率和道路安全。 SLT618信号灯技术是一种基于智能控制算法的车辆信号灯系统。它可以通过实时监测和分析路况数据,智能地调整红绿灯的信号时长,以适应不同路段的交通流量。这样,交通信号灯可以更加合理地分配绿灯时间,降低交通拥堵和等待时间。 在2021年,许多城市将SLT618信号灯技术应用于主要道路和交通繁忙的路口。由于SLT618系统的效率和准确性,它帮助降低了车辆排放的二氧化碳和燃料消耗,对城市环境产生了积极的影响。 与传统的定时信号灯相比,SLT618系统可以根据路况实时调整信号灯的时长,避免了交通流量过大或过小导致的交通拥堵。这大大减少了行车时间和排队时间,提高了道路的通行能力和效率。 同时,SLT618系统还能够提高行人的安全。它可以根据行人的实时需求调整信号灯时间,确保行人的安全通行。这对于繁忙的城市交叉口来说尤为重要,能够减少行人事故的发生率。 总之,SLT618-2021代表了201年SLT618信号灯技术的应用。在过去的一年里,SLT618系统通过智能控制算法和实时数据分析提高了交通效率和道路安全,对于城市交通管理和环境改善产生了积极的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值