文章目录
introdution
- 模型主要能做三件事情:零样本音色复刻, speaker fine-tuning, 以及 emotion control。
- 关键的技术:
- speech factorization via self-distillation,没有改变模型结构 & loss 函数的基础上,实现音色解耦,用于VC 任务;
- preference biasing through reinforcement learning (RL),用以改善鲁棒性,说话人相似度,可控性
- 还提出一个 S e e d − T T S D i T Seed-TTS_{DiT} Seed−TTSDiT,end-to-end TTS, 用于音频编辑,性能和AR结构相当;
method
包含三个阶段:
- pretraining
- finetuning:(1)speaker fine-tune,拟合到一批说话人上;(2)instruct fine-tune,改善可控性;
- post-processing RL强化学习:整体改善模型
experiment
-
WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;
-
speaker simi :WavLM-large fine-tuned on the speaker verification task
-
因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。
ICL
- 和传统模型finetune 效果对比,简单音色会更好,困难音色不如传统模型
fine-tune
- speaker finetune: 5 个人,一共20小时(每个人1-10小时),一起finetune;inference的时候用speaker index 指示合成哪个音色;
instruction finetune
- 控制expressiveness, speaking rate, style, emotion,
- 训练一个speech emotion recognition,用以分辨4重主要的情感。
- - 即使没有IFT,也可以根据文本推测出情感;IFT之后的控制更好;
- 这一部分具体怎么构造instrucrion没有说,可以参考其他几篇论文。
Low-latency inference and streaming processing
- 设计causal diffusion architecture减少推理延迟;
- 使用consistency distillation以及修改后的flow-matching,减少diffusion的计算开销;
- 使用一些LLM通用的方法,优化AR,比如GQA, flash attention,paged attention以及模型量化;
- 优化后的模型deployed model和原始模型offline model的性能,效果对比如上图