AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

最新推荐文章于 2024-04-25 09:58:25 发布

你愿意和我一起清理内存吗？

最新推荐文章于 2024-04-25 09:58:25 发布

阅读量1.9k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Yyyyyywly/article/details/99453252

版权

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

Abstract

非并行的多对多语音转换以及zero-shot 语音转换仍然是未被探索的领域。深度风格转移算法，如生成对抗网络（GAN）和条件变分自动编码器（CVAE），正在作为该领域的新解决方案应用。然而，GAN培训是复杂而困难的，并且没有强有力的证据证明其生成的语音具有良好的感知质量。另一方面，CVAE训练很简单，但没有GAN的分布匹配属性。在本文中，我们提出了一种新的样式转移方案，它只涉及一个带有精心设计的瓶颈的自动编码器。我们正式表明，该方案可以通过仅在自重建损失上进行训练来实现分布匹配样式转移。基于这种方案，我们提出了AUTOVC，它利用非并行数据在多对多语音转换中实现了最先进的结果，并且是第一个执行zero-shot语音转换的结果。

零次学习（zero-shot learning） https://zhuanlan.zhihu.com/p/34656727

1. Introduction

在动作电影和科幻电影中，用别人的声音说话的想法从来都是一个吸引人的元素，它也在许多实际应用中找到了自己的方式，比如隐私和身份保护、创意产业等。在语音研究领域，这一任务被称为语音转换问题，它涉及到从源说话者修改给定的语音以匹配目标说话者的语音质量。

尽管在语音转换方面的研究仍在继续，但仍有三个问题没有得到充分的研究。首先，大多数语音转换系统假设并行训练数据的可用性，即两个说话者说出相同的句子的语音对。只有少数可以训练非并行数据。其次，在现有的为数不多的处理非并行数据的算法中，能够进行多对多转换(即从多个源扬声器转换为多个目标扬声器)的算法就更少了。最后但并非最不重要的是，没有语音对流系统能够执行zero-shot 转换，即通过只看一个看不见的说话人的几句话就转换成他/她的声音。

近年来，随着深层风格转换研究的不断深入，传统的语音转换问题正被重构为一种风格转换问题。有许多样式传输算法不需要并行数据，并且适用于多个领域，因此它们很容易作为语音转换的新解决方案。特别是生成对抗网络(GAN) (Goodfellow et al.， 2014)和条件变分自编码器(CVAE) (Kingma & Welling, 2013;(Kingma等，2014)，在语音转换方面越来越受欢迎。

然而，GAN和CVAE都不是完美的。GAN提出了一个很好的理论依据，即生成的数据将与真实数据的分布相匹配，并取得了最先进的结果，特别是在计算机视觉方面。然而，普遍认为GAN很难训练，其收敛性较弱。此外，虽然将GAN引入语音生成(Donahue et al.， 2018)和语音域转移(Pascual et al.， 2017)的著作越来越多;Subakan & Smaragdis, 2018;范等，2018;(Hosseini-Asl等，2018)，没有强有力的证据表明生成的语音听起来是真实的。能够骗过辨别者的言语，还没有骗过人类的耳朵。另一方面，CVAE更容易培训。它所需要做的就是执行自重构并最大化输出概率的变分下界。直观的方法是推断一个假设的与样式无关的隐藏变量，然后将该变量与新的样式信息结合起来生成样式传递的输出。然而，仅CVAE并不能保证分布匹配，而且经常出现转换输出过平滑的问题(Kameoka et al.， 2018b)。

由于缺乏合适的风格转换算法，现有的语音转换系统还没有产生令人满意的结果，这自然导致问题的表述如下。是否有一种风格传递算法可以被证明像GAN一样匹配分布，像CVAE一样容易训练，并且对语音效果更好?

在此基础上，本文提出了一种新型的传输方案，该方案只涉及带有精心设计瓶颈的普通自动编码器。与CVAE相似，该方案只需要对自重构损失进行训练，但其分布匹配特性与GAN相似。这是因为正确设计的瓶颈将学会从源中去除风格信息，得到与风格无关的代码，这是CVAE的目标，但CVAE的训练方案无法保证。

在此基础上，提出了一种无并行数据的多对多语音传输算法AUTOVC。AUTOVC遵循自编码框架，只针对自编码损耗进行训练，但它引入了精心调整的降维和时间下采样来约束信息流。正如我们将展示的，这个简单的方案将带来显著的性能提升。AUTOVC在传统的多对多转换任务中表现优异，所有的说话人都出现在训练集中。同时，配备了一个经过训练的嵌入说话人的说话人验证器(Heigold et al.， 2016;(Wan et al.， 2018)， AUTOVC是最早实现性能良好的zero-shot语音转换的公司之一。考虑到测试结果的质量和训练方案的简单性，AUTOVC为实现更简单、更好的语音转换和通用风格传输系统开辟了一条新的道路。该实现将公开可用。

2. Related Works

利用VAE及其与对抗性训练相结合的方法进行非并行的多对多语音转换。VAE- vc (Hsu et al.， 2016)是一个使用VAE的简单语音转换系统。之

最低0.47元/天解锁文章

你愿意和我一起清理内存吗？

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder LossAbstract非并行的多对多语音转换以及zero-shot 语音转换仍然是未被探索的领域。深度风格转移算法，如生成对抗网络（GAN）和条件变分自动编码器（CVAE），正在作为该领域的新解决方案应用。然而，GAN培训是复杂而困难的，并且没有强有力的证据证明其生成的语...
复制链接

扫一扫