会议:2020 ICASSP
单位:韩国KAIST
abstract
emotional voice conversion,在两种以上的情绪之间的转换会造成信号失真。FHVAE(变分自编码器)已经被证明可以生成sequence-level (如说话人表示)以及segment-level的特征(如音素特征)。本文利用FHVAE生成情感表示,用于emotional voice conversion。
1. introduction
emotional VC(E-VC)是VC的另一个变种,E-VC是指将source中情感转移到target中。可以应用于情感话的human-like人机交互。实现的挑战:(1)情感数据的缺乏;(2)对语音中情感的判别,以及对E-VC主观测试的难度。
FHVAE被证明可以提取multi-timescale的特征----sequence-level (如说话人表示)以及segment-level的特征(如音素特征)。
本文的贡献如下:
(1)基于现有的FHVAE结构,添加一层额外层利用情感相关的先验知识;探究了不同的情感编码方法;
(2)引入准则,以最大化emotion embedding;
(3)使用基于cycle-consistency loss完成E-VC。
2. related work
starGAN-VC用cycle-consistency loss可以实现many-to-many VC, starGAN-VC2改进了MOS得分,但是仍然需要source domain已知。
【20】用encoder-decoder结构生成content and style的表达,用到了GAN判别器和cycle-consistency loss,但是每一个domain需要单独的encoder,decoder。
AutoVC用大量的数据生成latent embedding,完成zero-shot VC。
VQ-VAE用向量量化将输入编码成离散的latent embedding,并且证明该离散的latent embedding与音素有关,加上speaker id之后可以完成VC。
3. proposed method
3.1. Architecture
公式(1)推倒
P
(
X
,
Z
1
,
Z
2
,
Z
3
,
μ
1
,
μ
2
,
μ
3
)
=
P
(
μ
2
)
P
(
μ
3
)
P(X,Z_1,Z_2, Z_3, \mu_1, \mu_2, \mu_3) = P(\mu_2)P(\mu_3)
P(X,Z1,Z2,Z3,μ1,μ2,μ3)=P(μ2)P(μ3)
根据条件概率分布
P
(
X
,
Z
1
,
Z
2
,
Z
3
)
=
P
(
X
∣
Z
1
,
Z
2
,
Z
3
)
P
(
Z
1
,
Z
2
,
Z
3
)
P(X,Z_1,Z_2,Z_3)=P(X|Z_1,Z_2,Z_3)P(Z_1,Z_2,Z_3)
P(X,Z1,Z2,Z3)=P(X∣Z1,Z2,Z3)P(Z1,Z2,Z3)
因为
Z
1
,
Z
2
,
Z
3
Z_1,Z_2,Z_3
Z1,Z2,Z3三者独立,
P
(
Z
1
,
Z
2
,
Z
3
)
=
P
(
Z
1
)
P
(
Z
2
)
P
(
Z
3
)
P(Z_1,Z_2,Z_3)=P(Z_1)P(Z_2)P(Z_3)
P(Z1,Z2,Z3)=P(Z1)P(Z2)P(Z3)
3.3 对解耦特征正交化
用 Gram–Schmidt orthogonalization对提取到的情感特征进行正交化。因为情绪特征是高度相关的,比如高兴和生气,都是基频上扬。通过正交化将 μ 3 i \mu_3^i μ3i转换成正交矩阵 v 3 i v_3^i v3i,可以大幅度提高语音质量和自然度。
3.4. Max-marginTraining
如果emotion embedding彼此间隔比较大的话,可以更好的完成E-VC,并且结果的分类也更明确。因此用L1 norm做损失函数,因为在L2 norm中,更明显的情绪会被赋予更大的权重,而不能在相关情绪之间差生较大的差异,比如疲惫和伤心的情绪。相反,L1 norm对不同的情绪给到一个相同的权重,并且可以更好的区分相关的情感。
3.5 cycle-consistent loss
4. experiment
dataset: 两个说话人,25h,9种情感标签
t-SNE展示对情绪的分离情况
不带margin-loss和cycle-loss的模型,z2对说话人分离的更好,z3对部分情绪分离的比较好;
带margin-loss的模型,对相近情绪的分离做的更好;
主观评测(Amazon)说明带margin-loss可以大幅度提高相似度和语音自然度;