FireRedTTS

林林宋

已于 2024-09-12 19:32:44 修改

阅读量14

点赞数

文章标签：深度学习

于 2024-09-10 17:44:25 首次发布

原文链接：https://arxiv.org/html/2409.03283v1

版权

abstract

在这里插入图片描述

如上图（b)所示，SAST包含【hubert，aoucstic encoder，VQ，decoder】四个模块；train batch 6400 seconds for 300k iterations.

semantic codec：HuBERT，然后量化，40ms一个token，码本大小16,384；参考Addressing Index Collapse of Large-Codebook Speech Tokenizer with Dual-Decoding Product-Quantized Variational Auto-Encoder 的，使用PQ量化的方式增加码本利用率（实际上和GVQ实现一样）
speaker emb：ECAPA-TDNN模型，输入音频进行 "Clip&Shuffle"处理，以打乱其中的时序信息；25%-75%的音频，clip成1s的长度，然后随机拼接；【得到的global信息重复&add 到semantic token 上？】
decoder 重建hubert emedding和mel；
- $L_s$ hubert emedding重建loss
- $L_a$ 重建mel loss
- $\lambda_{vq}=1, \lambda_{s}=100，\lambda_{a}=1$

采用flow-matching based decoder和Streamable Decoder两种结构；还原16k音频，然后用一个超分vocoder，升采样为48k 音频；
Streamable Decoder：参考MusicGen的方法， delay pattern的方式，N步推理，依次推理K个码本
超分vocoder，294 小时的数据训练；参考BigVGAN-V2的方法；

在这里插入图片描述

emotion control：直接把情感分类【neutral, happy, sad, and angry】，然后插入到输入的prompt序列；speaker embedding是单独提取的，也能做到解耦说话人和情感的作用；
Paralinguistic control：一共设计了13种副语言
- 预先设计一些副语言的token，比如【 pauses, elongations拖音, repetitions, laughter, and breathing sounds】，直接插入到text seq；
- 对于重叠的副语言信息（比如laughing while speaking），涉及一个专门的embedding layer；在特定词语上进行embedding拼接，达到控制效果；