Seed-TTS

林林宋

于 2024-08-19 10:33:51 发布

阅读量1.1k

点赞数 27

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40168949/article/details/141303507

版权

文章目录

introdution
method
experiment

paper

introdution

模型主要能做三件事情：零样本音色复刻， speaker fine-tuning, 以及 emotion control。
关键的技术：
- speech factorization via self-distillation，没有改变模型结构 & loss 函数的基础上，实现音色解耦，用于VC 任务；
- preference biasing through reinforcement learning (RL)，用以改善鲁棒性，说话人相似度，可控性
- 还提出一个 $Seed-TTS_{DiT}$ ，end-to-end TTS, 用于音频编辑，性能和AR结构相当；

method

在这里插入图片描述
包含三个阶段：

pretraining
finetuning：（1）speaker fine-tune，拟合到一批说话人上；（2）instruct fine-tune，改善可控性；
post-processing RL强化学习：整体改善模型

experiment

WER: Whisper-large-v3 测试，并不是WER 越低越好，因为有的带口音，合成音频WER低可能说明相似度不够；
speaker simi ：WavLM-large fine-tuned on the speaker verification task
因为一句prompt 生成多句音频，导致合成音频的韵律会比较单调，虽然和prompt 相似度比较高，但是不符合真实世界口语表达的风格多样性。

ICL

在这里插入图片描述

和传统模型finetune 效果对比，简单音色会更好，困难音色不如传统模型

fine-tune

speaker finetune: 5 个人，一共20小时(每个人1-10小时），一起finetune；inference的时候用speaker index 指示合成哪个音色；

instruction finetune

控制expressiveness, speaking rate, style, emotion,
训练一个speech emotion recognition,用以分辨4重主要的情感。
-
即使没有IFT，也可以根据文本推测出情感；IFT之后的控制更好；
这一部分具体怎么构造instrucrion没有说，可以参考其他几篇论文。

Low-latency inference and streaming processing

设计causal diffusion architecture减少推理延迟；
使用consistency distillation以及修改后的flow-matching，减少diffusion的计算开销；
使用一些LLM通用的方法，优化AR，比如GQA， flash attention，paged attention以及模型量化；
优化后的模型deployed model和原始模型offline model的性能，效果对比如上图

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。