最最简单的稳定生成语音教程ChatTTS稳定语音

qq_31531909

已于 2024-10-31 13:46:44 修改

阅读量3.3k

点赞数 10

文章标签： python 人工智能 pip 音频 scipy github

于 2024-10-31 12:55:59 首次发布

本文链接：https://blog.csdn.net/qq_31531909/article/details/143392439

版权

最最简单的稳定生成语音教程ChatTTS

踩了很多坑探索出来的。

一、简介

ChatTTS是一个开源的中文语音合成项目，通过使用预训练的声音嵌入文件(.pt文件)，我们可以实现固定音色的语音合成。

二、音色固定的步骤

1. 初始尝试

pip install chattts-fork
chattts "测试文本" --seed 222 -o output.wav

使用默认seed值生成的音色可能不够理想。声音控制不稳定。

2. 获取优质音色文件

前往 ChatTTS Speaker 下载评分较高的.pt音色文件。
在这里插入图片描述

3. 使用Python代码加载音色文件

import ChatTTS
import torch
from IPython.display import Audio
import torchaudio

# 1. 初始化模型
chat = ChatTTS.Chat()
chat.load_models()

# 2. 加载高质量音色文件
spk_emb = torch.load('seed_11_restored_emb.pt', map_location=torch.device('cpu'))

# 3. 设置生成参数
params_infer_code = {
    'spk_emb': spk_emb,     # 声音嵌入
    'temperature': 0.03,     # 温度参数，控制随机性
}

# 4. 生成语音
text = ["这是测试文本"]
wavs = chat.infer(text, params_infer_code=params_infer_code)

# 5. 保存音频
torchaudio.save("output.wav", torch.from_numpy(wavs[0]), 24000)