AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解

最新推荐文章于 2024-08-10 08:09:04 发布

ruclion

最新推荐文章于 2024-08-10 08:09:04 发布

阅读量632

点赞数

分类专栏：研三-语音合成论文文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013625492/article/details/111470334

版权

0. Abstract

非并行的多对多语音转换以及零语音转换仍然是未开发的领域。诸如对抗性网络（GAN）和条件变量自动编码器（CVAE）之类的深度样式转换算法已被用作该领域的新解决方案。但是，GAN训练是复杂且困难的，并且没有强有力的证据表明其生成的语音具有良好的感知质量。另一方面，CVAE训练很简单，但不具备GAN的分布匹配特性。在本文中，我们提出了一种style transfer scheme，该方案仅涉及具有精心设计的瓶颈的自动编码器。我们正式表明，该方案仅通过对自重构损失进行训练就可以实现achieve distribution matching style transfer 。基于此方案，我们提出了AUTOVC，它可以在不并行数据的情况下实现多对多语音转换的最新结果，并且是第一个执行零语音转换的工具。

其实, 如何构建少量的平行conversion文本, 并且对它们的性质进行说明, 本身就很难描述清楚

比如: 语料中有说话人2和mel1->mel2, 那么mel2中那些content 信息要保留mel1, 那些属于2的音色信息呢? 让人录制的时候如何录制呢?

音色通过ASV
发音信息通过PPG, 并且要完全一致

作者另外两篇:

F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder
https://arxiv.org/abs/2004.07370

The 2nd work can convert rhythm, pitch, and/or timbre at the same time.

Unsupervised Speech Decomposition via Triple Information Bottleneck
https://arxiv.org/abs/2004.11284

1. Introduction

the traditional voice conversion problem is being recast as a style transfer problem, where the vocal qualities can be regarded as styles, and speakers as domains.传统的语音转换问题正在被重铸为风格转换问题，其中声音品质可以被视为风格，说话者可以被视为领域。
生成对抗网络（GAN）（Goodfellow等，2014）和条件变分自编码器（CVAE）（Kingma＆Welling，2013； Kingma等，2014）在语音转换中越来越受欢迎
但是，GAN和CVAE都不完美。 GAN提供了很好的理论依据，即所生成的数据将与真实数据的分布相匹配，并且已经取得了最新的成果，尤其是在计算机视觉方面。但是，众所周知，GAN非常难以训练，并且其收敛性很脆弱。此外，尽管有越来越多的作品将GAN引入语音生成（Donahue等，2018）和语音域转移（Pascual等，2017; Subakan

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。