一、关于 Dia-1.6B
基础信息
- Hugging Face :https://huggingface.co/nari-labs/Dia-1.6B
- HF Space : https://huggingface.co/spaces/nari-labs/Dia-1.6B
- GitHub: https://github.com/nari-labs/dia
- 开发团队:Nari Labs
- 模型类型:专业型(语音生成)
- 社交媒体:Discord社区 | 体验预约
- License : Apache License 2.0
模型简介
Dia是由Nari Labs开发的16亿参数文本转语音模型。该模型通过PytorchModelHubMixin集成推送至Hugging Face平台。
Dia能够直接从文本转录生成高度逼真的对话语音。用户可以通过音频条件控制输出效果,实现情感和语调调节。该模型还能生成非语言交流声音,如笑声、咳嗽声、清嗓声等。
为加速研究进程,我们开放了预训练模型检查点和推理代码。模型权重托管于Hugging Face,目前仅支持英文生成。
我们还提供了演示页面,将本模型与ElevenLabs Studio和Sesame CSM-1B进行对比。
- (更新) 现已上线ZeroGPU空间!立即体验点击这里。感谢HF团队的支持 😃
- 加入我们的Discord社区获取技术支持和新功能通知
- 体验Dia增强版:生成趣味对话、混音创作并与朋友分享。🔮 加入等候名单获取抢先体验资格
二、快速入门⚡️
这将打开一个可供你使用的 Gradio 用户界面。
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
或者如果您没有预先安装 uv
:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
请注意,该模型并未针对特定语音进行微调。因此,每次运行模型时您将获得不同的语音效果。
您可以通过以下两种方式保持说话者音色的一致性:
1、添加音频提示(详细指南即将发布——目前可先尝试Gradio上的第二个示例)
2、固定随机种子
三、功能特性
- 通过
[S1]
和[S2]
标签生成对话 - 生成非语言类标注如
(laughs)
、(coughs)
等- 以下非语言标签会被识别,但可能导致意外输出
(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
- 语音克隆功能。详见
example/voice_clone.py
- 在Hugging Face空间,您可以上传需要克隆的音频文件,并将对应文本转录内容放置在脚本前。请确保转录文本符合格式要求,模型将仅输出您脚本中的内容。
四、使用说明⚙️
作为 Python 库
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
一个 PyPI 包和可用的 CLI 工具即将推出。
五、硬件与推理速度💻
Dia 目前仅在 GPU 上测试通过(要求 pytorch 2.0+ 和 CUDA 12.6),CPU 支持即将推出。首次运行时需要额外下载 Descript Audio Codec,因此耗时较长。
在专业级 GPU 上,Dia 可实现实时音频生成。较旧型号的 GPU 推理速度会较慢。以 A4000 GPU 为例,Dia 大约能生成 40 tokens/秒(86 tokens 对应 1 秒音频)。支持 torch.compile
的 GPU 可获得速度提升。
完整版 Dia 需要约 10GB 显存运行,后续将推出量化版本。
若您暂无可用硬件或想体验更大规模的模型版本,请点击此处加入等候列表。
这些是我们在RTX 4090上测试得出的速度。
precision | realtime factor w/ compile | realtime factor w/o compile | VRAM |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
六、其它
⚠️ 免责声明
本项目提供高保真语音生成模型,仅供研究和教育用途。以下行为严格禁止:
- 身份冒用:未经许可,不得生成模仿真实人物的音频。
- 欺骗性内容:不得使用本模型生成误导性内容(例如虚假新闻)。
- 非法或恶意用途:不得将本模型用于非法活动或蓄意造成伤害的行为。
使用本模型即表示您同意遵守相关法律标准并承担伦理责任。我们不承担任何滥用行为的责任,并坚决反对任何不道德的技术使用行为。
🔭 待办事项 / 未来工作
- 支持 Docker 容器化部署
- 优化推理速度
- 添加量化功能以提高内存效率
伊织 xAI 2025-05-05(周一)