MegaTTS3——字节跳动文字转语音开源项目本地docker部署教程

孽小倩

已于 2025-04-10 10:40:23 修改

阅读量2.1k

点赞数 35

分类专栏：大语言模型音视频文章标签： TTS 开源文字转语音

于 2025-04-01 08:15:00 首次发布

本文链接：https://blog.csdn.net/i826056899/article/details/146879456

版权

大语言模型同时被 2 个专栏收录

16 篇文章

订阅专栏

音视频

11 篇文章

订阅专栏

先来试听感受下效果：

字节开源TTS MegaTTS3

1. MegaTTS3 介绍

MegaTTS3是字节跳动与2025年3月27日首次开源的文本转语音服务。我们以官方提供的性能对比来介绍MegaTTS3的优势：

上图中，CER是字符错误率，即文本转语音时多读，漏读，或者误读的出错率，自然越低越好，从数据看，MegaTTS3虽然不是最低的错误率，但是已经是倒数第二低的错误率，英文WER甚至做到了最低，表现相当良好。

SMI-O（Speech Modeling Index - Objective）是语音合成（TTS, Text-to-Speech）领域中的一个评估指标，用于评估语音合成系统的质量，特别是其自然度和清晰度。它是一种基于客观评估的评分方法，旨在通过自动化手段评估合成语音的音质和表现，而不依赖于人工评分。分数越高越好，表格中分数取值0-1，无论英文还是中文，MegaTTS3都做到了最优，即发音最清晰，最容易理解，最自然。

使用docker版本的项目地址：https://github.com/leeyeel/MegaTTS3

2. 前置准备

官方github项目中不包含模型本身，因为模型本身巨大，不适合放置到项目本身中。使用前需要下载模型以及参考音频。为了方便期间，我们使用这个已经做了docker配置的克隆项目。

https://github.com/leeyeel/MegaTTS3https://github.com/leeyeel/MegaTTS3

git clone https://github.com/leeyeel/MegaTTS3

2.1 下载模型

根据官方README文件，需要到链接处下载模型。每个都需要下载，下载完成后放置到MegaTTS3内的checkpoints文件夹下,下载链接

Huggingfaceh

或者

Google Drive

checkpoints的位置如下：

➜  MegaTTS3 git:(main) ls
assets  checkpoints  Dockerfile  LICENSE  readme.md  requirements.txt  tts

目录结构如下：

2.2 下载参考音频、模型

可在这里下载，下载的文件一个wav音频文件，一个.npy模型文件

4. 部署

准备完毕以后，构建docker镜像：

docker build . -t megatts3:latest

5. 推理

构建成功之后，对于是使用GPU加速（目前GPU只支持CUDA)还是CPU运行有两种不同的命令方式：

使用GPU:

docker run -it -p 7929:7929 --gpus all -e CUDA_VISIBLE_DEVICES=0 megatts3:latest

使用CPU:

docker run -it -p 7929:7929  megatts3:latest

启动后访问http://0.0.0.0:7929/即可

分别上传之前wav文件以及npy模型文件，然后输入想要转换的文字，点击submit即可开始进行生成语音。