tts代表_当VAE遇到TTS——基于VAE的语音风格迁移-CSDN博客

本文链接：https://blog.csdn.net/weixin_39582480/article/details/111676644

本文介绍了如何使用Variational AutoEncoder (VAE)进行语音风格迁移。作者利用VAE学习语音的潜在变量，实现不同风格的语音合成，并通过实验展示了在风格控制和转移方面的有效性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文未经允许禁止转载，谢谢合作。

原文标题：<<Learning latent representations for style control and transfer in end-to-end speech synthesis>>

这次我将介绍近年来很火的无监督模型VAE(Variational AutoEncoder)在TTS中的一个应用，实际上熟悉的读者应该知道，VAE不仅在CV、NLP领域有着广泛的应用，在和语音合成相关的任务中也经常被使用。

1. Intro

作者使用VAE来学习语音的latent variable用来建模不同风格的语音，实验结果显示模型在style transfer上取得了不错的表现。

实际上VAE在TTS中使用的套路基本都是照搬之前在image或者text上使用的模式的，基本的原理就是通过encode mel spectrogram来得到latent code，把这个latent code当作speaker embedding来进行特定风格的语音合成或者multi-speaker语音合成。

VAE的好处在于它可以很容易地得到disentangle的latent code，每个latent code的维度都可以代表一个特定的概念，通过调整某个概念的值，我们就能控制特定的概念。比如在image synthesis中，调整特定维度的latent code就可以控制合成出来的物体的角度、大小等特定概念。