零样本极速复刻语音!F5-TTS本地部署教程

一、介绍

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。

二、部署流程

环境推荐配置

系统:Ubuntu22.04,

显卡:4090,

显存:24G,cuda11.8

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

conda -V

如果输入命令没有显示Conda版本号,则需要安装。

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

微信截图_20240820152809.png

3.创建虚拟环境

创建名称为“f5-tts”的虚拟环境

conda create -n f5-tts python=3.10 -y

微信截图_20241202083423.png

激活“f5-tts"虚拟环境

conda activate f5-tts

微信截图_20241202083454.png

4.下载Pytorch

输入下列命令:

pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

微信截图_20241202090257.png

耐心等待,直到出现以“Successfully”开头的提示,则下载结束:

微信截图_20241202090907.png

4.下载模型

输入下列命令下载F5-TTS模型同时进入项目中

git clone https://github.com/SWivid/F5-TTS.git;cd F5-TTS

微信截图_20241202090932.png

5.下载模型依赖包

输入下列命令:

pip install -e .

微信截图_20241202090946.png

耐心等待,直到出现以“Successfully”开头的提示,则下载结束:

微信截图_20241202091016.png

三、网页演示

在本地运行 gradio 应用程序,使用下列命令运行项目呈现模型的成功界面

f5-tts_infer-gradio --port 8080 --host 0.0.0.0

微信截图_20241202091935.png

打开网址:

微信截图_20241202092619.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值