ChatTTS目前最好用的文字转语音工具!
一、ChatTTS介绍
ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
演示视频:【ChatTTS 最强文本转语音!一键本地安装,100%成功!效果逼真如真人,完全免费开源!!| 零度解说】
支持的语种
• 英语
• 中文
亮点
- 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
- 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
- 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。
数据集和模型
• 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练(但并未开源)。
• HuggingFace和ModelScope上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。
二、本地部署
参考:ChatTTS 最强文本转语音!一键本地安装,100%成功!效果逼真如真人,完全免费开源!!| 零度解说_哔哩哔哩_bilibili
测试环境:
windows 10
python 3.9
torch-cpu
安装步骤:
1. 安装Python和git环境
python需要 3.9+版本
git安装
2. 下载源码ChatTTS-ui
下载链接:https://www.freedidi.com/wp-content/uploads/2024/06/ChatTTS-ui-main.zip
3.文件根目录终端依次执行命令
在源码根目录进入终端,然后依次执行下面的安装命令:
python -m venv venv
.\venv\scripts\activate
pip install -r requirements.txt
4.选择torch-gpu加速
不需要CUDA加速,执行:
pip install torch==2.1.2 torchaudio==2.1.2
如果需要CUDA加速,执行(未测试):
pip install torch==2.1.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118
5.执行app.py启动,自动打开浏览器窗口,默认 http://127.0.0.1:9966
python app.py
6.如报错缺少spk_stat.pt参考下边步骤(测试过程未遇到此问题),否则忽略本步骤
下载spk_stat.pt
下载后将该文件复制到 项目目录/models/pzc163/chatTTS/asset/ 文件夹内
注:
执行app.py后需要从modelscope下载模型到本地,windows会下载到c盘,可以修改环境变量更改下载位置,参考HuggingFace/ModelScope修改默认下载位置_修改model scope默认存储位置-CSDN博客