Multi-Speaker and Multi-Domain Emotional Voice Conversion Using Factorized Hierarchical Variational

最新推荐文章于 2024-06-23 09:45:56 发布

林林宋

最新推荐文章于 2024-06-23 09:45:56 发布

阅读量637

点赞数 1

分类专栏： paper笔记 voice conversion

原文链接：https://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText=MULTI-SPEAKER%20AND%20MULTI-DOMAIN%20EMOTIONAL%20VOICE%20CONVERSION%20USING%20FACTORIZED%20HIERARCHICAL%20VARIATIONAL%20AUTOENCODER

版权

paper笔记同时被 2 个专栏收录

162 篇文章 24 订阅

订阅专栏

voice conversion

4 篇文章 3 订阅

订阅专栏

会议：2020 ICASSP
单位：韩国KAIST

abstract

emotional voice conversion，在两种以上的情绪之间的转换会造成信号失真。FHVAE(变分自编码器）已经被证明可以生成sequence-level （如说话人表示）以及segment-level的特征（如音素特征）。本文利用FHVAE生成情感表示，用于emotional voice conversion。

1. introduction

emotional VC(E-VC)是VC的另一个变种，E-VC是指将source中情感转移到target中。可以应用于情感话的human-like人机交互。实现的挑战：（1）情感数据的缺乏；（2）对语音中情感的判别，以及对E-VC主观测试的难度。

FHVAE被证明可以提取multi-timescale的特征----sequence-level （如说话人表示）以及segment-level的特征（如音素特征）。
本文的贡献如下：
（1）基于现有的FHVAE结构，添加一层额外层利用情感相关的先验知识；探究了不同的情感编码方法；
（2）引入准则，以最大化emotion embedding;
（3）使用基于cycle-consistency loss完成E-VC。

2. related work

starGAN-VC用cycle-consistency loss可以实现many-to-many VC， starGAN-VC2改进了MOS得分，但是仍然需要source domain已知。
【20】用encoder-decoder结构生成content and style的表达，用到了GAN判别器和cycle-consistency loss，但是每一个domain需要单独的encoder，decoder。
AutoVC用大量的数据生成latent embedding，完成zero-shot VC。
VQ-VAE用向量量化将输入编码成离散的latent embedding，并且证明该离散的latent embedding与音素有关，加上speaker id之后可以完成VC。

3. proposed method

在这里插入图片描述

3.1. Architecture

在这里插入图片描述

公式（1）推倒
$P(X,Z_1,Z_2, Z_3, \mu_1, \mu_2, \mu_3) = P(\mu_2)P(\mu_3)$
根据条件概率分布
$P(X,Z_1,Z_2,Z_3)=P(X|Z_1,Z_2,Z_3)P(Z_1，Z_2，Z_3)$
因为 $Z_1，Z_2，Z_3$ 三者独立， $P(Z_1，Z_2，Z_3)=P(Z_1)P(Z_2)P(Z_3)$

3.3 对解耦特征正交化

用 Gram–Schmidt orthogonalization对提取到的情感特征进行正交化。因为情绪特征是高度相关的，比如高兴和生气，都是基频上扬。通过正交化将 $\mu_3^i$ 转换成正交矩阵 $v_3^i$ ，可以大幅度提高语音质量和自然度。

3.4. Max-marginTraining

如果emotion embedding彼此间隔比较大的话，可以更好的完成E-VC,并且结果的分类也更明确。因此用L1 norm做损失函数，因为在L2 norm中，更明显的情绪会被赋予更大的权重，而不能在相关情绪之间差生较大的差异，比如疲惫和伤心的情绪。相反，L1 norm对不同的情绪给到一个相同的权重，并且可以更好的区分相关的情感。