ChatTTS介绍以及快速本地部署方法!

一、ChatTTS介绍

ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
演示视频:【ChatTTS 最强文本转语音!一键本地安装,100%成功!效果逼真如真人,完全免费开源!!| 零度解说】

支持的语种

• 英语
• 中文

亮点

  1. 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
  2. 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
  3. 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

数据集和模型

• 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练(但并未开源)。
• HuggingFace和ModelScope上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

二、本地部署

参考:ChatTTS 最强文本转语音!一键本地安装,100%成功!效果逼真如真人,完全免费开源!!| 零度解说_哔哩哔哩_bilibili

测试环境:

windows 10
python 3.9
torch-cpu

安装步骤:

1. 安装Python和git环境

python需要 3.9+版本
git安装

2. 下载源码ChatTTS-ui

下载链接:https://www.freedidi.com/wp-content/uploads/2024/06/ChatTTS-ui-main.zip

3.文件根目录终端依次执行命令

在源码根目录进入终端,然后依次执行下面的安装命令:
python -m venv venv

.\venv\scripts\activate

pip install -r requirements.txt

4.选择torch-gpu加速

不需要CUDA加速,执行:
pip install torch==2.1.2 torchaudio==2.1.2
如果需要CUDA加速,执行(未测试):
pip install torch==2.1.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118

5.执行app.py启动,自动打开浏览器窗口,默认 http://127.0.0.1:9966

python app.py

6.如报错缺少spk_stat.pt参考下边步骤(测试过程未遇到此问题),否则忽略本步骤

下载spk_stat.pt
下载后将该文件复制到 项目目录/models/pzc163/chatTTS/asset/ 文件夹内

注:

执行app.py后需要从modelscope下载模型到本地,windows会下载到c盘,可以修改环境变量更改下载位置,参考HuggingFace/ModelScope修改默认下载位置_修改model scope默认存储位置-CSDN博客

使用说明

有多个音色可供选择:

在这里插入图片描述

选择自定义音色值后会忽略左侧选择音色:固定一个音色值

在这里插入图片描述

添加提示词口语化:[oral_2],笑声:[laugh_0],停顿:[break]。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值