TTS是text2speech的简称,TTS主要的一些常见包括小说、对话、视频配音、chatbot、虚拟人等场景,因coqui/XTTS-v2
生成质量高、完全开源、多语言支持等特点,所以本篇基于coqui/XTTS-v2
工具包浅出TTS。官方文档见[link]。
介绍
Coqui TTS 是一个开源的文字到语音(Text-to-Speech, TTS)系统,旨在使语音合成技术对研究人员、开发者和创造者更加可接近。它基于先前的 Mozilla TTS 项目。
这个TTS端到端模型提供的特征如下:
- 音色克隆,可以提供仅仅3 秒的音频就实现声音克隆;
- 跨语言克隆,比如英文到中文,中文到英文等,共计16中语言
- 24kHz采样率,对于speech够了,但是对于Music一般要支持立体声、44.1kHz
- 流式推理延迟小于200ms
- 支持模型fine-tune
因其完全开源的特性,所以很多后继的TTS都是基于此的,比如中英的chatTTS的架构和XTTS-v2
非常类似&#