chattts本地化python部署及采坑记录(2024年亲测可用)

Catformon

于 2024-08-10 21:42:50 发布

阅读量1.1k

点赞数 23

文章标签： python 开发语言

本文链接：https://blog.csdn.net/R_Here_Waiting/article/details/141096326

版权

ChatTTS 是一个文本转语音的开源项目，短短2周左右的时间，在 GitHub 上已经斩获了 24.4k 的 Star！

官网： https://chattts.com/zh

开源地址：https://github.com/2noise/ChatTTS

ChatTTS模型：https://huggingface.co/2Noise/ChatTTS

ChatTTS在线网页Demo：https://huggingface.co/spaces/lenML/ChatTTS-Forge

为了进行使用，本人也是参考了许多的文章，包括但不限于：

Chat-TTS：windows本地部署实践【有手就行】

ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）-CSDN博客

PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客

不知道是不是因为版本不一致的原因，这些文章都说了引用模型是load_models，但是我下载的版本这样引用会报错说不存在load_models这个方法。经过研读ChatTTS下的core.py，这个方法已经变成了load方法。接下来就把安装和可能踩坑的步骤都讲一遍。

一、代码及模型下载

1.直接使用git clone下载代码和依赖

git clone https://github.com/2noise/ChatTTS
git clone https://huggingface.co/2Noise/ChatTTS

我是把代码和模型分别放在两个路径，并不影响使用。

2.安装依赖

在ChatTTS项目的根目录下执行以下命令

pip install -r requirements.txt

直接安装依赖可能会有一些冲突，需要自己修改一下。这里特别参考了

PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客

因为我下载的torch 版本是2.2.2，根据这篇文章我调整了torchvision和torchaudio的配置，修改前后变化如下：

torchvision 0.19.0——>0.17.2
torchaudio 2.4.0——>2.2.2

具体执行的代码为

pip uninstall torchvision
pip install torchvision==0.17.2
pip uninstall torchaudio
pip install torchaudio==2.2.2

二、测试代码编写

在ChatTTS下编写代码，我是直接在根目录下新增了一个test.py。

直接上一下核心代码

import torch
import torchaudio
import ChatTTS
model_dir = '替换成自己的模型地址'

chat = ChatTTS.Chat()
chat.load(source='local', custom_path=model_dir,compile=False)
texts = '测试文字'
wavs = chat.infer(texts)
torchaudio.save("保存文件路径", torch.from_numpy(wavs), 24000)

就是这段代码，我研究了很久！

首先是教程说到的引用模型，很多教程都写了chat.load_models，这时候可以去看看ChatTTS下的ChatTTS下的代码，这里就是核心代码，在core.py的第124行的源码如下

def load(
        self,
        source: Literal["huggingface", "local", "custom"] = "local",
        force_redownload=False,
        compile: bool = True,
        custom_path: Optional[torch.serialization.FILE_LIKE] = None,
        device: Optional[torch.device] = None,
        coef: Optional[torch.Tensor] = None,
        use_flash_attn=False,
    ) -> bool:
# 具体执行代码

可以看到加载模型的方法已经变成了load

source的选项有3个，因为想引用本地的模型所以写了local

compile的默认值为True，因为是在win平台，pytorch的dynamo图模式，不支持compile，所以将compile参数设置为False

这里的本地文件路径应该用custom_path来指定。

如果正常的话运行这段代码就会在项目下生成一段转换后的音频。我还遇到了许多报错！

三、报错总结

报错1：check models in custom path %s failed

程序提示找不到模型，很疑惑明明路径写对了，于是去看了是dl.py中的check_all_assets方法报错，具体就是它去你的模型下找不到它规定的模型，在dl.py的第46行有以下代码

def check_all_assets(base_dir: Path, sha256_map: Dict[str, str], update=False) -> bool:
    logger.get_logger().info("checking assets...")
    current_dir = base_dir / "asset"
    names = [
        "Decoder.pt",
        "DVAE_full.pt",
        "GPT.pt",
        "spk_stat.pt",
        "tokenizer.pt",
        "Vocos.pt",
    ]

我发现这里的DVAE_full.pt我本地的是DVAE.pt，我直接把DVAE.pt给复制改名了为DVAE_full.pt。