tts代表_当VAE遇到TTS——基于VAE的语音风格迁移

本文介绍了如何使用Variational AutoEncoder (VAE)进行语音风格迁移。作者利用VAE学习语音的潜在变量,实现不同风格的语音合成,并通过实验展示了在风格控制和转移方面的有效性能。
摘要由CSDN通过智能技术生成

e661154a6372ea9951962447ddaad8c6.png

本文未经允许禁止转载,谢谢合作。

原文标题:<<Learning latent representations for style control and transfer in end-to-end speech synthesis>>

这次我将介绍近年来很火的无监督模型VAE(Variational AutoEncoder)在TTS中的一个应用,实际上熟悉的读者应该知道,VAE不仅在CV、NLP领域有着广泛的应用,在和语音合成相关的任务中也经常被使用。

1. Intro

作者使用VAE来学习语音的latent variable用来建模不同风格的语音,实验结果显示模型在style transfer上取得了不错的表现。

实际上VAE在TTS中使用的套路基本都是照搬之前在image或者text上使用的模式的,基本的原理就是通过encode mel spectrogram来得到latent code,把这个latent code当作speaker embedding来进行特定风格的语音合成或者multi-speaker语音合成。

VAE的好处在于它可以很容易地得到disentangle的latent code,每个latent code的维度都可以代表一个特定的概念,通过调整某个概念的值,我们就能控制特定的概念。比如在image synthesis中,调整特定维度的latent code就可以控制合成出来的物体的角度、大小等特定概念。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值