很厉害的语音克隆TTS：coqui-ai TTS的使用过程

最新推荐文章于 2025-03-21 18:20:24 发布

gootyking

最新推荐文章于 2025-03-21 18:20:24 发布

阅读量1.6w

点赞数 29

分类专栏：一些方法记录文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/gootyking/article/details/134579037

版权

一些方法记录专栏收录该内容

7 篇文章

订阅专栏

1、概述

coqui-ai开源的TTS，它的特色我总结为：可以上传自己的一段人声音频（哪怕就几句），它就能给你克隆了，并且把你要说的文字给转成语音读出来。

2、使用方法

开源地址：https://github.com/coqui-ai/TTS

1）环境

官方说的环境是在Ubuntu18.04上测的，应该至少是这个版本吧，python版本是>=3.9,<3.12。当然用GPU肯定是最好的。

我的环境：ubuntu22.04，python给了3.10

2）安装

如果不自己整花活儿，就老老实实的用一下，那就这么办：

pip install TTS

就这么简单，当然来加个 -i 镜像速度会快点。

如果想自己训练啥的，就下载源码按教程弄吧，这里就不说了。

3）使用

就用它推荐的第一个例子和模型就行。

import torch
from TTS.api import TTS
		
# Get device 用GPU还是CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
# List available TTS models 可以看都有些啥模型名字，注意此时模型文件都没有下载
#print(TTS().list_models())
# Init TTS 初始化，传入模型名字，这个路径就得用上面list里的路径，然后下载链接在python安装路径的TTS目录下，这个文件里写的.models.json
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)

# Run TTS运行，必须设置语言
# Text to speech to a file 这是输出到文件了。
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav")

注意点：