Multi-Speaker and Multi-Domain Emotional Voice Conversion Using Factorized Hierarchical Variational

会议:2020 ICASSP
单位:韩国KAIST

abstract

emotional voice conversion,在两种以上的情绪之间的转换会造成信号失真。FHVAE(变分自编码器)已经被证明可以生成sequence-level (如说话人表示)以及segment-level的特征(如音素特征)。本文利用FHVAE生成情感表示,用于emotional voice conversion。

1. introduction

emotional VC(E-VC)是VC的另一个变种,E-VC是指将source中情感转移到target中。可以应用于情感话的human-like人机交互。实现的挑战:(1)情感数据的缺乏;(2)对语音中情感的判别,以及对E-VC主观测试的难度。

FHVAE被证明可以提取multi-timescale的特征----sequence-level (如说话人表示)以及segment-level的特征(如音素特征)
本文的贡献如下:
(1)基于现有的FHVAE结构,添加一层额外层利用情感相关的先验知识;探究了不同的情感编码方法;
(2)引入准则,以最大化emotion embedding;
(3)使用基于cycle-consistency loss完成E-VC。

2. related work

starGAN-VC用cycle-consistency loss可以实现many-to-many VC, starGAN-VC2改进了MOS得分,但是仍然需要source domain已知。
【20】用encoder-decoder结构生成content and style的表达,用到了GAN判别器和cycle-consistency loss,但是每一个domain需要单独的encoder,decoder。
AutoVC用大量的数据生成latent embedding,完成zero-shot VC。
VQ-VAE用向量量化将输入编码成离散的latent embedding,并且证明该离散的latent embedding与音素有关,加上speaker id之后可以完成VC。

3. proposed method

在这里插入图片描述

3.1. Architecture

在这里插入图片描述

公式(1)推倒
P ( X , Z 1 , Z 2 , Z 3 , μ 1 , μ 2 , μ 3 ) = P ( μ 2 ) P ( μ 3 ) P(X,Z_1,Z_2, Z_3, \mu_1, \mu_2, \mu_3) = P(\mu_2)P(\mu_3) P(X,Z1,Z2,Z3,μ1,μ2,μ3)=P(μ2)P(μ3)
根据条件概率分布
P ( X , Z 1 , Z 2 , Z 3 ) = P ( X ∣ Z 1 , Z 2 , Z 3 ) P ( Z 1 , Z 2 , Z 3 ) P(X,Z_1,Z_2,Z_3)=P(X|Z_1,Z_2,Z_3)P(Z_1,Z_2,Z_3) P(X,Z1,Z2,Z3)=P(XZ1,Z2,Z3)P(Z1Z2Z3)
因为 Z 1 , Z 2 , Z 3 Z_1,Z_2,Z_3 Z1Z2Z3三者独立, P ( Z 1 , Z 2 , Z 3 ) = P ( Z 1 ) P ( Z 2 ) P ( Z 3 ) P(Z_1,Z_2,Z_3)=P(Z_1)P(Z_2)P(Z_3) P(Z1Z2Z3)=P(Z1)P(Z2)P(Z3)

3.3 对解耦特征正交化

用 Gram–Schmidt orthogonalization对提取到的情感特征进行正交化。因为情绪特征是高度相关的,比如高兴和生气,都是基频上扬。通过正交化将 μ 3 i \mu_3^i μ3i转换成正交矩阵 v 3 i v_3^i v3i,可以大幅度提高语音质量和自然度。

3.4. Max-marginTraining

如果emotion embedding彼此间隔比较大的话,可以更好的完成E-VC,并且结果的分类也更明确。因此用L1 norm做损失函数,因为在L2 norm中,更明显的情绪会被赋予更大的权重,而不能在相关情绪之间差生较大的差异,比如疲惫和伤心的情绪。相反,L1 norm对不同的情绪给到一个相同的权重,并且可以更好的区分相关的情感。

3.5 cycle-consistent loss

在这里插入图片描述

4. experiment

dataset: 两个说话人,25h,9种情感标签
t-SNE展示对情绪的分离情况
不带margin-loss和cycle-loss的模型,z2对说话人分离的更好,z3对部分情绪分离的比较好;

带margin-loss的模型,对相近情绪的分离做的更好;

主观评测(Amazon)说明带margin-loss可以大幅度提高相似度和语音自然度;

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值