IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

abstract

  • character-pinyin 混合编码,解决多音字问题;
  • FSQ 代替VQ,提升码本利用率;
  • BigVGAN2 作为decoder;

method

在这里插入图片描述

  • speech-to-codec VQVAE
  • text2codec LLM
  • codec2latent, latent2wav BigVGAN2

Text tokenizer

  • The vocabulary size of the text tokenizer is 12,000. It encompasses 8,400 Chinese characters along with their corresponding 1,721 pinyin, English word pieces, and several special symbols.

Neural Speech Tokenizer

  • 码本数8192 codes,24 kHz, 比特率 25 Hz,输入是mel
  • VAE encoder 参数量:50M

LLM

  • transformer 替换成Conformer encoder , subsample rate of 2,这个替换可以增强音色相似度和训练稳定性
  • 输入序列
    • seq1 : [BT], prompt text, text, [ET], [BA], prompt audio, audio, [EA]
    • seq2: [BT], text, [ET], [BA], audio, [EA]
    • seq3: speaker info, [BT], text, [ET], [BA], au- dio, [EA]
      其中,seq1 和seq2 推理阶段是[BT], prompt text, text, [ET], [BA], prompt audio,seq3 推理阶段是“speaker info, [BT], text, [ET], [BA]”,省略了prompt text和prompt audio
  • seq3 的优点:简短推理长度;解决asr识别prompt audio不准的问题;跨语言copy,多语言asr 的难度较高;
  • Conformer-based Perceiver 提取speaker embedding 的效果更好(是这个意思??)

SpeechDecoder

  • 因为速度问题,没有选择diffusion+hifi_vocoder
  • 选择BigVGAN2,将speechLLM 的最后一个hidden state +speaker embedding 转换成wav。
  • latent的采样率是25hz,差值为100hz,送给BigVGAN2还原24k音频。

Codec Quantizer

在这里插入图片描述

  • FSQ的量化效率更高:VQ数据量增至34k 时,和FSQ 6k的量化效率几乎一致
  • 数据的多样性会影响量化效率:数据量越多,FSQ 34k的数据量化结果,略差于6k 的结果;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值