AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解

0. Abstract

非并行的多对多语音转换以及零语音转换仍然是未开发的领域。诸如对抗性网络(GAN)和条件变量自动编码器(CVAE)之类的深度样式转换算法已被用作该领域的新解决方案。但是,GAN训练是复杂且困难的,并且没有强有力的证据表明其生成的语音具有良好的感知质量。另一方面,CVAE训练很简单,但不具备GAN的分布匹配特性。在本文中,我们提出了一种style transfer scheme,该方案仅涉及具有精心设计的瓶颈的自动编码器。我们正式表明,该方案仅通过对自重构损失进行训练就可以实现achieve distribution matching style transfer 。基于此方案,我们提出了AUTOVC,它可以在不并行数据的情况下实现多对多语音转换的最新结果,并且是第一个执行零语音转换的工具。

 

其实, 如何构建少量的平行conversion文本, 并且对它们的性质进行说明, 本身就很难描述清楚

比如: 语料中有说话人2和mel1->mel2, 那么mel2中那些content 信息要保留mel1, 那些属于2的音色信息呢? 让人录制的时候如何录制呢?

  • 音色通过ASV
  • 发音信息通过PPG, 并且要完全一致

作者另外两篇:

F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder
https://arxiv.org/abs/2004.07370

The 2nd work can convert rhythm, pitch, and/or timbre at the same time.

Unsupervised Speech Decomposition via Triple Information Bottleneck
https://arxiv.org/abs/2004.11284

1. Introduction

  • the traditional voice conversion problem is being recast as a style transfer problem, where the vocal qualities can be regarded as styles, and speakers as domains.传统的语音转换问题正在被重铸为风格转换问题,其中声音品质可以被视为风格,说话者可以被视为领域。
  • 生成对抗网络(GAN)(Goodfellow等,2014)和条件变分自编码器(CVAE)(Kingma&Welling,2013; Kingma等,2014)在语音转换中越来越受欢迎
  • 但是,GAN和CVAE都不完美。 GAN提供了很好的理论依据,即所生成的数据将与真实数据的分布相匹配,并且已经取得了最新的成果,尤其是在计算机视觉方面。但是,众所周知,GAN非常难以训练,并且其收敛性很脆弱。此外,尽管有越来越多的作品将GAN引入语音生成(Donahue等,2018)和语音域转移(Pascual等,2017; Subakan
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值