StarGANv2-VC

会议:2021 interspeech
作者:Yinghao Aaron Li
单位:Columbia University

abstract

  • StarGAN v2做many-to-many的变声,使用20个英文说话人训练,可以完成any-to-many,cross-lingual, singing voice conversion。
  • 使用style-encoder,可以把plain speech转换成stylistic speech。

introduction

变声的技术路线可以分为三类:

  • Auto-encoder approach:encoder去编码说话人无关的信息,需要设定各种限制移除说话人相关的信息;
  • GAN-based:使用判别器判断生成的语音和真实目标人的相似度,因为不能保证判别器从real data中学到了合理的信息,因此转换生成的语音可能会有相似度不高、发音错误等问题;
  • TTS-based:利用文本标签,保证了音色一致度,但是不能适用于没有文本的场景。

本文是基于StarGAN的框架,对比自然度和相似度结果超过了AUTO-VC 和VTN (tts-based)

method

使用StarGAN v2一样的结构,加入 joint detection and classification (JDC) F0 extraction network保证基频一致性;
在这里插入图片描述
目标函数
在这里插入图片描述

  • 对抗损失
    在这里插入图片描述
  • asr loss
  • 基频一致性
  • 风格区分性 L d s L_{ds} Lds,随机挑选两个风格,区分度越大越好

experiments

dataset

  • VCTK20人的数据,for style JVS dataset(10人,有正常的和假音的句子);for emotion emotional speech dataset (ESD),
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值