本文未经允许禁止转载,谢谢合作。
原文标题:<<Learning latent representations for style control and transfer in end-to-end speech synthesis>>
这次我将介绍近年来很火的无监督模型VAE(Variational AutoEncoder)在TTS中的一个应用,实际上熟悉的读者应该知道,VAE不仅在CV、NLP领域有着广泛的应用,在和语音合成相关的任务中也经常被使用。
1. Intro
作者使用VAE来学习语音的latent variable用来建模不同风格的语音,实验结果显示模型在style transfer上取得了不错的表现。
实际上VAE在TTS中使用的套路基本都是照搬之前在image或者text上使用的模式的,基本的原理就是通过encode mel spectrogram来得到latent code,把这个latent code当作speaker embedding来进行特定风格的语音合成或者multi-speaker语音合成。
VAE的好处在于它可以很容易地得到disentangle的latent code,每个latent code的维度都可以代表一个特定的概念,通过调整某个概念的值,我们就能控制特定的概念。比如在image synthesis中,调整特定维度的latent code就可以控制合成出来的物体的角度、大小等特定概念。