7K Stars!这款文本转语音(TTS)的效果太震撼,网络上的声音评价真是不能轻信啊!!...

▼最近直播超级多,预约保你有收获

1

Fish Speech 是什么?

如果你打算制作视频,但又觉得在镜头前有些紧张,那么你将迎来好消息。今年,各种文本转语音(TTS)工具如雨后春笋般涌现,只需准备好文字内容,TTS 就能自动转换成各种语音。

今天,我们将介绍一个开源的 TTS 项目,它能够快速复制声音,效果令人印象深刻,能够满足用户的个性化需求。它就是:Fish Speech。

Github 地址:https://github.com/fishaudio/fish-speech

Fish Speech 是一款高度可定制的文本转语音(TTS)解决方案,架构设计如下图所示,分为训练阶段一和二,以及在线推理阶段。它能够根据用户的具体需求,提供灵活多变的声音输出。该工具特别采用了 Flash-Attn 算法,这一算法在处理大规模数据集时表现出色,以其卓越的效率、精确度和稳定性而闻名,从而显著提升了 TTS 技术的整体性能。

3bda4f3293be318ed96438bcfdf6269a.png

Fish Speech 的另一个亮点是其无需复杂的训练过程,用户只需上传一段原始语音样本,便能迅速生成与之相似的语音。此外,该工具对显存的要求相对较低,只需 4GB 的内存即可运行,且推理速度非常快,这大大提升了用户的使用体验。

自发布以来,Fish Speech 凭借其出色的效果和易于上手的特点,迅速获得了广泛的关注和好评。

ed4602f34e4a35b3fd94fa9e24c22962.png

它具备的特性如下所示:

  1. 文本至语音的即时转换:迅速将文字转换为自然流畅的语音输出。

  2. 多语种覆盖:支持中文、英文和日文等多种语言,轻松跨越语言障碍。

  3. 个性化语音克隆:借助深度学习技术,轻松克隆个性化语音。

  4. 低资源占用:仅需 4GB 显存,降低硬件需求门槛。

  5. 快速处理:优化推理流程,减少等待时间,提升处理效率。

  6. 丰富的语音模型选择:提供多种先进语音模型,满足不同应用需求。

  7. 易于使用:简化安装和配置过程,用户可轻松上手。

  8. 精细调校:LoRA 技术支持对模型进行细致调整。

  9. 性能优化:采用先进技术,确保高效稳定的语音转换能力。

 2

一键部署  

第一、资源要求

  • GPU 内存

    • 4GB (用于推理),8GB (用于微调)

  • 支持操作系统 

    • Linux、Windows

window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。

第二、Linux 系统部署参考如下

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech


# 安装 pytorch
pip3 install torch torchvision torchaudio


# 安装 fish-speech
pip3 install -e .


# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev

第三、完成部署启动后 Web 界面效果如下

f3f7a9cd75f13d37c67d7a3def628634.png

 3

在线推理  

Fish Speech 推理过程可以分为几个关键步骤:

1. 语音编码:首先,输入一段大约10秒的语音,使用 VQGAN(VQ-VAE-GAN)对其进行编码。

2. 语义 token 与文本结合:将编码后的语义 token 与相应的文本输入给大模型,作为训练的例子。

3. 生成新的语义 token:给定一段新的文本,让大模型生成对应的语义 token。

4. 语音解码:将生成的语义 token 输入 VQGAN 进行解码,生成对应的语音输出。

目前,推理支持三种不同的方式:命令行、HTTP API 和 Web UI。

接下来,我将介绍 HTTP API 和 Web UI的使用方式。

第一、HTTP API 方式

要使用 HTTP API,首先需要启动 AP I服务。用户可以通过发送特定的 HTTP请求来触发推理过程。比如:可以发送一个 POST 请求,包含语音编码后的数据和待生成的文本,然后 API 会返回相应的语音输出。这种方式适合自动化处理,比如:在服务器端集成或通过编程调用。

步骤一:启动服务

python -m tools.api \\
    --listen 0.0.0.0:8080 \\
    --llama-checkpoint-path "checkpoints/fish-speech-1.2" \\
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\
    --decoder-config-name firefly_gan_vq

步骤二:在 http://127.0.0.1:8080/ 中查看并测试 API,请求示例代码如下:

python -m tools.post_api \\
    --text "要输入的文本" \\
    --reference_audio "参考音频路径" \\
    --reference_text "参考音频的文本内容" \\
    --streaming True

第二、Web UI 方式

Web UI 提供了用户友好的界面,让用户可以通过浏览器直接与系统交互。用户可以在界面上输入文本,选择大模型,上传语音样本,并触发推理。Web UI还可能包括一些高级功能,比如:大模型选择、参数调整等。这种方式适合那些不熟悉编程但希望快速体验服务的用户。

启动 Web UI 步骤如下:

python -m tools.webui \\
    --llama-checkpoint-path "checkpoints/fish-speech-1.2" \\
    --decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\
    --decoder-config-name firefly_gan_vq

总的来说,HTTP API 和 Web UI 都提供了方便的方式来使用语音转换服务,无论是在自动化还是用户交互方面。

  4

在线 Demo

Fish audio 提供了一个试用网站,用户可以直接访问并开始使用。该网站还包含了众多用户自行制作并上传的个性化声音克隆样本,使用户能够轻松体验和探索不同的声音效果。更重要的是,该网站无需进行复杂的环境搭建,用户可以直接访问并开始尝试。以下是该网站的地址:

https://fish.audio/zh-CN/

1dd05d7d3e11be7210a551b58f22c83b.png

你可以选择已经有的声音来使用,也可以构建自己的声音,我觉得非常的贴心,对于那些动手能力不强的同学,是绝对的福音。比如:这一段,可以听听看效果。

你也可以定制自己的声音,如下所示:

140efe659d8ce3df654dd8801d3780d6.png

 5

大模型直播课

为了帮助同学们彻底掌握大模型 RAG、微调、Agent 等应用的深层原理,在企业中的应用实践,今天我会开场直播和同学们深度剖析,请同学们点击以下预约按钮免费预约

6

加我微信

有很多不方便公开发公众号的我会直接分享在朋友圈欢迎你扫码加我个人微信来看👇

68540b54488e575c40b6a30c377558c4.jpeg

⬇戳”阅读原文“,立即预约!

END

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值