零样本极速复刻语音！F5-TTS本地部署教程

算家计算

于 2025-01-13 14:08:26 发布

阅读量2.4k

点赞数 6

分类专栏：模型构建文章标签： F5-TTS 模型构建算家云语音克隆人工智能 AIGC 应用社区

本文链接：https://blog.csdn.net/SJJS_1/article/details/145114709

版权

模型构建专栏收录该内容

158 篇文章

订阅专栏

一、介绍

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统，它基于流匹配的非自回归生成方法，结合了扩散变换器 (DiT) 技术。。这一系统能够在没有额外监督的情况下，通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成，包括中文和英文，且能在长文本上进行有效的语音合成。此外，F5-TTS 还具备情感控制功能，能根据文本内容调整合成语音的情感表现，并支持速度控制，允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练，展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛，包括有声读物、语音助手、语言学习、新闻播报、游戏配音等，为各种商业和非商业用途提供强大的语音合成能力。

二、部署流程

环境推荐配置

系统：Ubuntu22.04，

显卡：4090，

显存：24G，cuda11.8

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

conda -V

如果输入命令没有显示Conda版本号，则需要安装。

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

微信截图_20240820152809.png

3.创建虚拟环境

创建名称为“f5-tts”的虚拟环境

conda create -n f5-tts python=3.10 -y

微信截图_20241202083423.png

激活“f5-tts"虚拟环境

conda activate f5-tts

微信截图_20241202083454.png

4.下载Pytorch

输入下列命令：

pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

微信截图_20241202090257.png

耐心等待，直到出现以“Successfully”开头的提示，则下载结束：

微信截图_20241202090907.png

4.下载模型

输入下列命令下载F5-TTS模型同时进入项目中

git clone https://github.com/SWivid/F5-TTS.git;cd F5-TTS

微信截图_20241202090932.png

5.下载模型依赖包

输入下列命令：

pip install -e .

微信截图_20241202090946.png

耐心等待，直到出现以“Successfully”开头的提示，则下载结束：

微信截图_20241202091016.png

三、网页演示

在本地运行 gradio 应用程序，使用下列命令运行项目呈现模型的成功界面

f5-tts_infer-gradio --port 8080 --host 0.0.0.0

微信截图_20241202091935.png

打开网址：

微信截图_20241202092619.png