Parallel-data-free voice conversion using cycle-consistent adversarial networks

会议:EUSIPCO 2018
单位:日本NTT

作者展示链接

1. abstract

本文实现不需要平行数据,不需要额外的数据,模型,对齐方式实现的高质量,通用的语音转换。用带门控CNN的CycleGAN-VC实现,用adversarial 和cycle consistent loss同时进行正向和反向的映射,从而在不匹配的数据中找到最佳的伪对(psedu paired)。

2. introduction

adversarial loss可以减少转换语音的过平滑(adversarial loss不需要精确的密度估计),identity mapping loss保证文本信息的保存,门控CNN可以建立时序的,层次的结构,同时有助于保存文本信息。

3. cycle-GAN
3.1.1 adversarial loss

source-x, target-y,只是判断是否将source转换到target相同的空间分布
(疑问:那个是source-target对怎么挑选??)
在这里插入图片描述

3.1.2 cycle-consistent loss

在这里插入图片描述
保证生成过程的可逆,X——通过G_Y生成Y——再通过G_X 还原为 X p r e d X^{pred} Xpred,应该和输入X一样—— L c y c l e L_{cycle} Lcycle,在此过程中,通过D(X)/D(Y)判断生成的是对应说话人的特征;

总的function
在这里插入图片描述

3.2 cycle-GAN-VC

对cycle-GAN的修正主要是2点:(1)门控CNN(2)identity-mapping loss

3.2.1 门控CNN

要建模语音的时序性,可以用RNN,但是并行很难,计算消耗大。因此用门控CNN代替,激活函数是GLU(gated-linear units)。
在这里插入图片描述

3.2.2 Identity-mapping loss

在这里插入图片描述
adversarial loss想要保留文本信息,但是not sufficient,因此额外在加Identity-mapping loss用于文本信息保留。(作者有做实验,不要Identity-mapping loss,性能下降很多)

  • Lid保证生成器不管输入什么,都需要内容保持;
    在cycle-GAN的实验中,这一项的加入证明了可以保留内容。
4. EXPERIMENTS

在这里插入图片描述

4.1. Experimental conditions

数据集:VCC2016 (5male, 5female),挑选其中的4人(2男2女,2 -src, 2-tar),每个人216个短句子(~13min, 162 for training, 54 for evaluation, 为了保证non-parallel, src-tar的挑选分开,前后81句)
特征:16k, 24 D MCEP, LF0, AP映射到 MCEP

4.1.2 Implementation details

生成器用1 D 卷积,判别器用2D卷积
将source和target MCEPs的每一维进行归一化
为了训练稳定,用最小二乘(a least squares loss)替代 L a d v L_{adv} Ladv中的负的对数似然, λ c y c = 10 \lambda_{cyc}=10 λcyc=10
1 0 4 10^4 104 iteration 内 λ c y c = 5 \lambda_{cyc}=5 λcyc=5
为了确保随机性,每次随机挑一个句子随机裁剪128帧,batch_size=1

4.2. Objective evaluation

和基于平行数据的GMM-VC比较(因为作者写文时,GMM-VC尚可与DNN-VC性能比拟)
没有用MCD比较,因为MCD由于高斯分布的假设,更倾向over-smoooth的结果。

比较指标:
GV
MS

4.3. Subjective evaluation

自然度和相似度(within-gender, cross-gender)的测试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值