情感TTS的核心在于控制语音的韵律(Prosody),即语音的音高(Pitch)、时长(Duration)、能量(Energy)和音色(Timbre)等声学特征,从而表达出不同的情感。现代深度学习TTS模型通过不同的方法实现对这些特征的精细控制。
主流情感合成控制方法
- 基于参考音频的风格迁移(Reference-based Style Transfer)
- 原理:这是目前最主流且效果最好的方法。该方法通过一个“风格编码器”(Style Encoder)从一小段参考音频中提取其韵律和情感特征,生成一个固定维度的向量,称为“风格嵌入”(Style Embedding)。然后,这个风格嵌入会作为TTS声学模型的一个额外条件输入,引导模型生成与参考音频情感、风格相似的语音。
- 优势:极为灵活,可以实现“零样本”(Zero-shot)情感迁移,即使用模型在训练中未见过的任意音频作为情感参考。
- 代表模型:VITS 、StyleTTS、Coqui XTTS 。
- 基于文本提示的生成(Text-Prompted Generation)
- 原理:这类模型通常是大型的生成式音频模型,它们将文本和特殊的“提示标签”(Prompt Tags)一起作为输入,直接生成音频。用户可以通过在文本中插入
[laughter](笑声)、[sighs](叹息)或描述性词语来引导模型产生相应的情感或非语言声音。 - 优势:控制方式直观,能生成包括笑声、哭声、音乐在内的复杂音频,创造力强。
- 代表模型:Bark 、Cosyvoice、SparkTTS。
- 原理:这类模型通常是大型的生成式音频模型,它们将文本和特殊的“提示标签”(Prompt Tags)一起作为输入,直接生成音频。用户可以通过在文本中插入
- 基于离散标签的控制(Discrete Label Control)
- 原理:在训练数据中,为每条语音标注明确的情感类别(如:
happy,sad,angry)。在训练时,将这些标签转换为独热编码(One-hot Encoding)或嵌入向量,与文本一同输入模型。推理时,用户通过指定情感标签来控制输出。 - 优势:简单直接,易于理解和实现。
- 劣势:情感类别是预定义且有限的,无法生成类别之外的混合或细微情感,表现力受限。
- 代表
- 原理:在训练数据中,为每条语音标注明确的情感类别(如:

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



