你是否畅想过如下场景?

  1. 让游戏角色用自己独特的声音与你对话?
  2. 让 AI 用你最喜欢的声音为你朗读小说?
  3. 如何克隆一个人的声音?
  4. 如何克隆自己的声音?
  5. 如何自动生成小说短视频配音?
  6. 如何自动朗读新闻文章等等?

随着人工智能技术的不断发展,这些曾经的幻想正在逐渐变为现实。今天,我要向大家介绍一款强大的开源文本转语音模型——Fish Speech,它将为你打开 AI 语音合成的新世界大门。

Fish Speech是什么?

Fish Speech是由Fish Audio开发的一个开源文本转语音模型。它基于VQ-GAN、Llama和VITS等前沿的AI技术,能够将文本转换成逼真的语音。

开源地址: ( https://github.com/fishaudio/fish-speech )

最让人惊喜的是,它不仅支持中文、日语、英语三种主流语言,合成的音质也非常高,堪比专业配音!🎙️ 尤其对于一些知名游戏角色的声音,如《原神》、《崩坏:星穹铁道》等,简直以假乱真。

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_GitHub

Fish Speech有什么特点?

与其他文本转语音模型相比,Fish Speech有以下几个优势:

  1. 完全开源,任何人都可以免费使用和改进代码。
  2. 支持多种主流语言,并且合成效果都很棒。
  3. 基于最新的AI模型,合成音质接近真人发音。
  4. 专门针对游戏配音场景进行了优化。

如何使用在线平台Fish Speech?

Fish Speech 提供了一个简单易用的在线平台,让你无需任何技术基础,也能轻松体验 AI 语音合成的乐趣。

访问 Fish Speech 在线平台: 打开浏览器,访问  https://fs.firefly.matce.cn/

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_02

发现有趣声音

点击“发现”查找你感兴趣的声音,然后选择你喜欢的声音可以直接使用该声音来进行声音合成。

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_GitHub_03

语言合成

  1. 点击最上方“语音合成”按钮
  2. 输入你的文本
  3. 选择要合成的声音源
  4. 点击“创建”按钮等待合成完成
  5. 合成完成后,可以进行声音试听、下载和分享

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_04

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_05

构建声音训练新声音

  1. 点击最上面“构建声音”按钮
  2. 选择声音类型
  3. 设置封面图片
  4. 填写声音名称和描述
  5. 输入声音标签
  6. 上传训练音频或者录制训练音频(推荐30s左右)
  7. 开始创建新声音
  8. 创建完成可以在“我的声音”菜单下面找到新建的声音模型

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_06

Fish Speech如何本地电脑部署?

要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)
  • 系统: Linux, Windows

Windows 配置

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torch.compile):

  1. 解压项目压缩包。
  2. 点击install_env.bat安装环境。
  • 可以通过编辑 install_env.batUSE_MIRROR 项来决定是否使用镜像站下载。
  • USE_MIRROR=false 使用原始站下载最新稳定版 torch 环境。USE_MIRROR=true 为从镜像站下载最新 torch 环境。默认为 true
  • 可以通过编辑 install_env.batINSTALL_TYPE 项来决定是否启用可编译环境下载。
  • INSTALL_TYPE=preview 下载开发版编译环境。INSTALL_TYPE=stable 下载稳定版不带编译环境。
  1. 若第2步INSTALL_TYPE=preview
    则执行这一步(可跳过,此步为激活编译模型环境)
  1. 使用如下链接下载 LLVM 编译器。
  1. 下载安装 Microsoft Visual C++ 可再发行程序包,解决潜在 .dll 丢失问题。
  1. 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。
  •  Visual Studio 下载
  • 安装好Visual Studio Installer之后,下载Visual Studio Community 2022
  • 如下图点击修改按钮,找到使用C++的桌面开发项,勾选下载

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_07

  1. 双击start.bat,进入 Fish-Speech 训练推理配置 WebUI 页面。
  • (可选) 想直接进入推理页面?编辑项目根目录下的
  • 进入网页后:

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_语音合成_08

  • 简单说一下各部分区域构成,如下图所示,方便按图索骥:

【强烈推荐】GitHub 5.6K:Fish Speech让配音更有灵魂,声音克隆简直以假乱真_GitHub_09

  • 1 banner(横幅):进入网页后从左到右逐渐显示"Welcome to Fish-Speech"字样。以后可能变动。
  • 2 功能区: 在这里,你将决定数据集文件的来源,文本标签的修改,训练参数的调整、推理页面的设置。
  • 3 文件信息展示区:一般不可更改。指引你如何找到自己的预处理后的数据文件、训练后的模型文件所在路径。
  • 4 版本/作者信息。可以多多支持一下作者。
  • 5 欢迎更好的动效~

(可选)想启动 API 服务器?编辑项目根目录下的 API_FLAGS.txt, 前三行修改成如下格式:

# --infer
    --api
    --listen ...
    ...
  • 1.
  • 2.
  • 3.
  • 4.

(可选)双击 run_cmd.bat 进入本项目的 conda/python 命令行环境

Linux 配置

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech pythnotallow=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch torchvision torchaudio

# 安装 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.

Fish Speech有哪些有趣的应用?

除了给游戏配音,Fish Speech还有很多有趣的应用场景,比如:

  • 为视频创作配旁白
  • 制作有声读物
  • 开发智能语音助手
  • 给动画片配音
  • ……

相信你已经想到了更多有创意的玩法。只要发挥想象力,Fish Speech就能为你打造出独一无二的语音作品。

总结

Fish Speech作为一个优秀的开源语音合成项目,为我们打开了一扇探索AI语音的大门。无论你是程序员、游戏爱好者、自媒体创作者,还是普通用户,都能从中获得乐趣和启发。

如果你也对语音合成技术感兴趣,不妨赶快去体验一下Fish Speech吧!说不定能创造出更多惊喜。

希望这篇文章能给你带来一些思路和灵感。你觉得Fish Speech还有哪些有趣的应用场景呢?欢迎在评论区分享你的想法。