Fish-Speech 部署教程：15 秒克隆声音，多语种随心畅言

算家计算

于 2025-02-04 12:00:00 发布

阅读量4.1k

点赞数 6

分类专栏：模型构建文章标签：大模型算家云应用社区文本转语音 TTS Fish-Speech

本文链接：https://blog.csdn.net/SJJS_1/article/details/145299145

版权

模型构建专栏收录该内容

166 篇文章

订阅专栏

一、介绍

Fish-Speech是由Fish Audio团队开发的一款开源文本转语音（TTS）模型，它基于VQ-GAN、Llama和VITS等技术开发，采用了Transformer架构，这是一种在自然语言处理任务中表现卓越的神经网络结构。同时，它还使用了多任务学习方法和先进的神经网络声码器，以实现高质量的语音合成。Fish-Speech支持包括中文在内的多种主流语言，使得用户在跨文化交流中能够自如地表达自己。仅需15秒的音频样本，Fish-Speech便能迅速实现声音克隆，生成与目标声音高度相似的语音。

二、部署流程

环境推荐配置

系统：Ubuntu22.04，

显卡：4090，

显存：24G，cuda12.1

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

conda -V

如果输入命令没有显示Conda版本号，则需要安装。

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

3.创建虚拟环境

创建名称为“Fish-Speech”的虚拟环境并激活

conda create -n Fish-Speech python==3.8 -y
conda activate fish-speech

1736822540336_微信截图_20250114100139.png

4.下载模型

输入下列命令下载fish-speech模型同时进入项目中

git clone https://gitclone.com/github.com/fishaudio/fish-speech.git ; cd fish-speech

1736822621548_微信截图_20250114100245.png

5.下载模型依赖包

输入下列命令：

pip install -e.

1736822667551_微信截图_20250114100342.png

此时报错：
ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects (pyaudio)

1736822894553_微信截图_20250114101436.png

复制下列命令解决：

apt-get install portaudio19-dev

再次使用pip install -e.命令继续下载其他的依赖包

6.重新下载Pytorch

复制下列命令进行下载：

pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu121

1736823201580_微信截图_20250114104919.png

7.更改网址和端口

进入“/fish-speech/tools/”文件目录下，在run_webui.py文件最后一行添加下列代码：

server_name='0.0.0.0',server_port=8080

1736823921684_微信截图_20250114103254.png

三、网页演示(启动程序)

复制下列命令运行项目呈现模型的成功界面

cd toolss
python run_webui.py

1736823401407_微信截图_20250114103501.png

打开网址：

1736818837489_微信截图_20250114094025.png