Seed-TTS

introdution

  • 模型主要能做三件事情:零样本音色复刻, speaker fine-tuning, 以及 emotion control。
  • 关键的技术:
    • speech factorization via self-distillation,没有改变模型结构 & loss 函数的基础上,实现音色解耦,用于VC 任务;
    • preference biasing through reinforcement learning (RL),用以改善鲁棒性,说话人相似度,可控性
    • 还提出一个 S e e d − T T S D i T Seed-TTS_{DiT} SeedTTSDiT,end-to-end TTS, 用于音频编辑,性能和AR结构相当;

method

在这里插入图片描述
包含三个阶段:

  • pretraining
  • finetuning:(1)speaker fine-tune,拟合到一批说话人上;(2)instruct fine-tune,改善可控性;
  • post-processing RL强化学习:整体改善模型

experiment

  • WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;

  • speaker simi :WavLM-large fine-tuned on the speaker verification task

  • 因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。

ICL

在这里插入图片描述

  • 和传统模型finetune 效果对比,简单音色会更好,困难音色不如传统模型

fine-tune

  • speaker finetune: 5 个人,一共20小时(每个人1-10小时),一起finetune;inference的时候用speaker index 指示合成哪个音色;

instruction finetune

  • 控制expressiveness, speaking rate, style, emotion,
  • 训练一个speech emotion recognition,用以分辨4重主要的情感。
    -在这里插入图片描述
  • 即使没有IFT,也可以根据文本推测出情感;IFT之后的控制更好;
  • 这一部分具体怎么构造instrucrion没有说,可以参考其他几篇论文。

Low-latency inference and streaming processing

  • 设计causal diffusion architecture减少推理延迟;
  • 使用consistency distillation以及修改后的flow-matching,减少diffusion的计算开销;
  • 使用一些LLM通用的方法,优化AR,比如GQA, flash attention,paged attention以及模型量化;
    在这里插入图片描述
  • 优化后的模型deployed model和原始模型offline model的性能,效果对比如上图
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值