❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信订阅号|搜一搜:蚝油菜花
🚀 快速阅读
- F5-TTS 是由上海交通大学开发的强大开源文本到语音合成系统。
- 支持零样本声音克隆、情感控制、多语言合成等高级功能。
- 基于流匹配和扩散变换器技术,训练数据高达 10 万小时,性能卓越。
正文(附运行示例)
F5-TTS 是什么
F5-TTS 是由上海交通大学开源的一款高性能文本到语音(TTS)系统。简单来说,它可以把文字转换成自然流畅的语音。这个系统使用了流匹配的非自回归生成方法和扩散变换器(DiT)技术,能够在没有额外数据的情况下,通过零样本学习快速生成高质量的语音。F5-TTS 不仅支持中文和英文等多语言合成,还能处理长文本,并且具备情感控制和速度调整功能。它在 10 万小时的大规模数据集上训练,表现出色,广泛应用于有声读物、语音助手、语言学习等领域。
F5-TTS 的主要优势
- 零样本声音克隆:不需要特定说话人的数据,就能模仿任何人的声音。
- 速度控制:可以根据需要调整语音的生成速度,实现精确控制。
- 情感表现控制:可以控制合成语音的情感色彩,让机器语音更有表现力。
- 长文本合成:支持长文本的连续语音合成,适合朗读长篇内容。
- 多语言支持:可以处理和生成中文、英文等多种语言的语音。
- 大规模数据训练:在 10 万小时的数据集上训练,确保模型的泛化能力和语音的自然度。
F5-TTS 的技术原理
- 流匹配(Flow Matching):通过流匹配目标训练模型,将简单的概率分布转换为复杂的概率分布。
- 扩散变换器(DiT):作为核心网络,处理序列数据,逐步去除噪声,生成清晰的语音信号。
- ConvNeXt V2:改进文本表示,提升语音合成的质量和自然度。
- Sway Sampling 策略:在推理时采用非均匀采样,提高模型的性能和效率。
- 端到端系统设计:简化从文本输入到语音输出的过程,省略了传统的复杂设计。
如何运行 F5-TTS
安装
首先克隆仓库并安装依赖:
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
准备数据集
提供 Emilia 和 Wenetspeech4TTS 的数据处理脚本:
python scripts/prepare_emilia.py
python scripts/prepare_wenetspeech4tts.py
训练
设置 accelerate 配置并启动训练:
accelerate config
accelerate launch train.py
推理
使用预训练模型进行推理:
python inference-cli.py \
--model "F5-TTS" \
--ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \
--ref_text "Some call me nature, others call me mother nature." \
--gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences."
Gradio 应用
启动 Gradio 应用进行 GUI 推理:
python gradio_app.py
资源
- GitHub 仓库:https://github.com/SWivid/F5-TTS
- HuggingFace 模型库:https://huggingface.co/SWivid/F5-TTS
- arXiv 技术论文:https://arxiv.org/pdf/2410.06885
- 在线体验 Demo:https://huggingface.co/spaces/mrfakename/E2-F5-TTS
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信订阅号|搜一搜:蚝油菜花