在 AI 大模型疯狂内卷的 2025 年,字节跳动 + 浙江大学 这对强强联手,悄悄地在语音合成界扔下了一个“重型炸弹”——MegaTTS 3!
这不仅是一款语音合成模型,这简直是国产技术的一次华丽“王者归来”!无论你是做语音合成的工程师、AI 爱好者,还是语音克隆技术研究者,MegaTTS 3 都值得你立刻下载部署,狠狠用起来!
另外推荐我的另一篇,docker部署MegaTTS3: MegaTTS3——字节跳动文字转语音开源项目本地docker部署教程-CSDN博客
💡 什么是 MegaTTS 3?
MegaTTS 3 是一款由字节跳动与浙江大学联合推出的开源语音合成系统,具备超高音质、极强可控性、轻量高效、双语支持等特性。
它不仅能“以假乱真”地克隆人声,还能精准控制口音、语速、停顿,甚至中英混说都能轻松应对。它已经在 Hugging Face 上开放了在线 Demo,点这里亲自试试(慎点,会上头)。
字节开源TTS MegaTTS3
🚀 为什么要吹它?
来,直接上干货。MegaTTS 3 有哪些“逆天”的点,看看你服不服:
特性 | 说明 |
---|---|
🎙️ 超强语音克隆 | 单段音频就能学会一个人的声音! |
🪶 轻量级架构 | 主干仅 4.5 亿参数,部署毫无压力 |
🌐 双语支持 | 支持中英文,支持中英混读! |
🧠 极致可控 | 可调语速、可调语调、可调口音(即将支持逐字控制!) |
🪄 高质量 WaveVAE 编码器 | 压缩能力炸裂,近乎无损还原 |
📦 完全开源 | Apache-2.0 License,商用无忧! |
🧬 子模块能力 | 附带对齐模型、拼音转音素模型、WaveVAE 声码器,全能型选手! |
👑 一句话总结:这是中国人自己做的、开源的、全能型语音合成神器,打得过国外闭源大厂,还完全免费!
🧩 快速部署指南(超详细!)
是不是已经按捺不住了?别急,教你如何一键部署 MegaTTS 3,真正把「黑科技」装进自己电脑里!
✅ 环境要求(以 Linux 为例)
# 克隆代码仓库
git clone https://github.com/bytedance/MegaTTS3
cd MegaTTS3
# 创建 Conda 环境
conda create -n megatts3-env python=3.10
conda activate megatts3-env
# 安装依赖
pip install -r requirements.txt
# 设置环境变量
export PYTHONPATH="$(pwd):$PYTHONPATH"
# 可选:指定 GPU
export CUDA_VISIBLE_DEVICES=0
✅ 下载预训练模型
去 Huggingface 或 Google Drive 下载模型权重,并放到 ./checkpoints/xxx/
下:
👉 模型下载地址
需要配套的 .wav
和 .npy
文件也能通过官方链接获取。
注意:由于安全原因,WaveVAE 编码器的完整参数未公开,但你可以使用官方提供的预提取 latent 文件进行推理。
🎤 语音合成演示:一行命令克隆声音
python tts/infer_cli.py \
--input_wav assets/Chinese_prompt.wav \
--input_text "另一边的桌上,一位读书人嗤之以鼻道,'佛子三藏,神子燕小鱼是什么样的人物?'" \
--output_dir ./gen
再比如控制口音强度的玩法:
python tts/infer_cli.py \
--input_wav assets/English_prompt.wav \
--input_text '这是一条有口音的音频。' \
--p_w 1.0 --t_w 3.0 \
--output_dir ./gen
超级丝滑,还能调节情绪、口音、音色相似度等等参数,玩出花来都不夸张!
🖥️ 启动 Web 界面(Gradio UI)
没错,它还支持 Web 可视化界面,直接本地体验:
python tts/gradio_api.py
# 然后访问 http://localhost:7929
🧠 模型子模块介绍(附赠小惊喜)
MegaTTS 不止是一个语音合成模型,它还是一个语音技术工具箱!
-
Aligner 模型:高质量对齐工具,可用于语音标注、音素识别、数据清洗。
-
Graphme-to-Phoneme 模型:支持多语种拼写转音素转换,准确率高。
-
WaveVAE 声码器:24kHz 压缩成 25Hz latent,几乎无损,速度飞起。
这些模块都可独立使用,直接拿来当你项目的“外挂”!
🧾 总结:国产语音模型的觉醒,从 MegaTTS 开始!
MegaTTS 3 是目前中文语音合成界最值得体验、最值得学习、最值得参与的开源项目。
🎉 开源地址: https://github.com/bytedance/MegaTTS3
🎧 在线体验: https://huggingface.co/spaces/ByteDance/MegaTTS3