StarGAN-VC: non-parallel many-to-many voice conversion with StaGAN

会议:2018 IEEE Spoken Language Technology Workshop (SLT)
单位:NTT
作者:Hirokazu Kameoka, Takuhiro Kaneko

abstract

  本文提出StarGAN,优点:(1)non-parallel data, transcription, time-alignment;(2)一个生成器学习many-to-many mapping;(3)可以实时完成转换;(4)只需要several minutes 的训练语句。在主管评测上超过现有的GAN变种。

introduction

不需要平行数据的方法:
(1)ASR-based,好的识别网络,+i-vector完成说话人身份的标记。
缺点:依赖一个好的ASR网络;
(2)VAE-VC:VAEs是AE的条件概率对应的形式,CVAE(conditional variational auto-encoder)是VAE有一个额外的输入。文本信息输入+额外的属性标签 c c c,完成source到target的转化。
缺点:decoder的输出oversmooth,会导致语音质量不高。
(3)GAN:
作者所在的组也是提出cycle-GAN-VC的组,用adversarial loss+cycle consistent loss+training loss,做one-to-one 的映射转化 。如果想用cycle-GAN-VC做many-to-many域的转换,就需要训练多对生成器和判别器对于不同的说话人映射对,但是实际上这些域是有重叠的,因为他们都代表的是speech,因此不同的attribute domain之间是有信息可以共享的。如果attribute domain的数量增加,对应的模型参数量平方倍数增长,因此也很难再用很少的数据进行训练。
和CVAE一样,测试时候的atrribute(说话人)必须是见过的(source也必须固定吗??)。对于CVAE,attribute c c c必须是见过的; 对于cycle-GAN-VC,source对于训练和测试必须是一致的。

StarGAN也是图像上首先提出来的,仅需要一对encoder-decoder就可以完成many-to-many的转化,生成器依赖一个额外的属性 c c c控制生成。测试时对输入语音的属性没有限制。
(4)VAE-GAN-VC的结构提出了克服VAE的缺点【23】。但是语音质量和转换效果不如本文。
(5)VQ-VAE【27】(vector quantized VAE),通过使用WaveNet model克服VAE的缺点,(根据生成器生成的样本,WaveNet学习样本的分布, 纳尼??),还有一个faster版本【43】。但是总体来说,这个方法计算消耗大,实时困难,需要的训练样本也多。

cycle-GAN-VC

adv_loss + cycle_loss+id_loss

cyclegan阅读笔记

3. StarGAN-VC

对one-hot vector 的解释:each of which is filled with 1 at the index of a class in a cer- tain category and with 0 everywhere else.

training objection

在这里插入图片描述

  • 额外添加domain attribute c,进行风格控制,在many-to-many conversion中,c代表的是不同说话人,onehot-speaker embedding;
  • 两个判别器:D判断生成的语音是否是真实语音;C判断与domain c的风格是否一致;
  • 其余loss遵遁cycle-consistant gan的设计;
Adversarial Loss在这里插入图片描述
Domain Classification Loss在这里插入图片描述
Cycle Consistency Loss

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
λ c l s , λ c y c , λ i d \lambda_{cls}, \lambda_{cyc}, \lambda_{id} λcls,λcyc,λid都是正的正则超参数。

model architecture

在这里插入图片描述

4. subjective evaluation

数据:VCC2018, 选择2男2女(SM1/SM2, SF1/SF2),每人116句(81句train-5min, 35句evaluatio-2min),因此source-target可以有12种不同的组合, c c c是4维的one-hot向量。

特征提取:a spectral envelope, a logarithmic fundamental frequency (log F0), and aperiodici- ties (APs) were extracted every 5 ms using the WORLD an- alyzer [46]. 36 mel-cepstral coefficients (MCCs) were then extracted from each spectral envelope. The F0 contours were converted using the logarithm Gaussian normalized transfor- mation described in [51]. The aperiodicities were used di- rectly without modification。

baseline model:VAEGAN-VC 【23】
测试:AB test (各20句),比较语音质量,ABX test(各24句)比较相似度。可以借鉴,不需要比很多,一个baseline model就可以
还给到一个MCC order的谱图进行比较(但是其实没太看出来这种图非平行数据有啥能比的??)确认一下,gan是时间帧对齐的吗??

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值