一、轻量化 TTS 模型的突破性进展
-
Kokoro TTS
- 特点:仅 82M 参数,支持中、英、法、日、韩五种语言,提供 18 种音色,CPU 上可实时生成语音(GPU 速度达 50 倍实时)。基于 StyleTTS 2 和 ISTFTNet 混合架构,无需依赖扩散模型,显著降低计算复杂度。
- 手机端适配:支持 ONNX 格式部署,无需 GPU 即可运行,适合移动端低资源环境。提供本地化处理能力,保护用户隐私。
- GitHub: hexgrad/Kokoro-82M
- 论文参考:虽未直接提及论文,但基于 StyleTTS 2 架构,可参考原始论文