TTS模型汇总,强烈建议收藏,内推模型全部经过本人实测有效

TTS模型汇总:

1、GPT-SoVITS

2、Fish Speech v1.2

3、字节的Seed-TTS(不开源)

  • 支持语言:多种语言,包括英语、中文。
  • 功能:同语言生成和跨语言生成,处理各种文本(叙述性、情感表达、描述性等),能根据不同情感和语境生成相应语音。
  • 项目Seed-TTS

4、ChatTTS

5、HuggingFace的Parler-TTS

6、MetaVoice-1B

7、MARS5-TTS

8、OpenVoice

9、EmotiVoice

  • 支持语言:中英文双语。
  • 特点:包含2000多种不同的音色。
  • GitHub
  • 11
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于 Transformer 的 TTS 模型通常由三个部分组成:编码器、解码器和后处理器。以下是每个部分的详细说明: 1. 编码器 编码器将输入的文本序列转换为一个特征向量。在基于 Transformer 的 TTS 中,通常使用字符级别或子词级别的编码器。编码器的输出是一个文本特征向量,用于提取输入文本的语义信息。 2. 解码器 解码器将编码器的输出和音频编码器的输出合并,生成最终的声音信号。在基于 Transformer 的 TTS 中,解码器通常由多个 Transformer 解码器堆叠而成。每个解码器负责生成一个 Mel-spectrogram 特征,这些特征在解码器堆叠后组合成最终的 Mel-spectrogram 特征。解码器的输出是一个 Mel-spectrogram 特征序列,用于描述声音的频谱信息。 3. 后处理器 后处理器将 Mel-spectrogram 特征转换为声音信号。在基于 Transformer 的 TTS 中,通常使用 Griffin-Lim 算法或 WaveNet 算法进行后处理。Griffin-Lim 算法是一种迭代重构方法,可以将 Mel-spectrogram 特征转换为声音信号。WaveNet 算法是一种生成语音的神经网络模型,可以直接从 Mel-spectrogram 特征生成声音信号。 基于 Transformer 的 TTS 模型在训练时通常使用均方误差(MSE)或交叉熵(Cross-Entropy)作为损失函数。损失函数的目标是最小化目标声音和生成声音之间的差异。在预测时,输入文本经过编码器得到文本特征向量后,可以经过解码器生成 Mel-spectrogram 特征,然后通过后处理器得到最终的声音信号。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值