Dia-1.6B - 高保真文本转对话生成模型

项目横幅


一、关于 Dia-1.6B

基础信息


模型简介

Dia是由Nari Labs开发的16亿参数文本转语音模型。该模型通过PytorchModelHubMixin集成推送至Hugging Face平台。

Dia能够直接从文本转录生成高度逼真的对话语音。用户可以通过音频条件控制输出效果,实现情感和语调调节。该模型还能生成非语言交流声音,如笑声、咳嗽声、清嗓声等。

为加速研究进程,我们开放了预训练模型检查点和推理代码。模型权重托管于Hugging Face,目前仅支持英文生成。

我们还提供了演示页面,将本模型与ElevenLabs StudioSesame CSM-1B进行对比。

  • (更新) 现已上线ZeroGPU空间!立即体验点击这里。感谢HF团队的支持 😃
  • 加入我们的Discord社区获取技术支持和新功能通知
  • 体验Dia增强版:生成趣味对话、混音创作并与朋友分享。🔮 加入等候名单获取抢先体验资格

二、快速入门⚡️

这将打开一个可供你使用的 Gradio 用户界面。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

或者如果您没有预先安装 uv

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

请注意,该模型并未针对特定语音进行微调。因此,每次运行模型时您将获得不同的语音效果。

您可以通过以下两种方式保持说话者音色的一致性:
1、添加音频提示(详细指南即将发布——目前可先尝试Gradio上的第二个示例)
2、固定随机种子


三、功能特性

  • 通过[S1][S2]标签生成对话
  • 生成非语言类标注如(laughs)(coughs)
    • 以下非语言标签会被识别,但可能导致意外输出
    • (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
  • 语音克隆功能。详见example/voice_clone.py
    • 在Hugging Face空间,您可以上传需要克隆的音频文件,并将对应文本转录内容放置在脚本前。请确保转录文本符合格式要求,模型将仅输出您脚本中的内容。

四、使用说明⚙️


作为 Python 库


import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

一个 PyPI 包和可用的 CLI 工具即将推出。


五、硬件与推理速度💻

Dia 目前仅在 GPU 上测试通过(要求 pytorch 2.0+ 和 CUDA 12.6),CPU 支持即将推出。首次运行时需要额外下载 Descript Audio Codec,因此耗时较长。

在专业级 GPU 上,Dia 可实现实时音频生成。较旧型号的 GPU 推理速度会较慢。以 A4000 GPU 为例,Dia 大约能生成 40 tokens/秒(86 tokens 对应 1 秒音频)。支持 torch.compile 的 GPU 可获得速度提升。

完整版 Dia 需要约 10GB 显存运行,后续将推出量化版本。

若您暂无可用硬件或想体验更大规模的模型版本,请点击此处加入等候列表。


这些是我们在RTX 4090上测试得出的速度。

precisionrealtime factor w/ compilerealtime factor w/o compileVRAM
bfloat16x2.1x1.5~10GB
float16x2.2x1.3~10GB
float32x1x0.9~13GB

六、其它

⚠️ 免责声明

本项目提供高保真语音生成模型,仅供研究和教育用途。以下行为严格禁止

  • 身份冒用:未经许可,不得生成模仿真实人物的音频。
  • 欺骗性内容:不得使用本模型生成误导性内容(例如虚假新闻)。
  • 非法或恶意用途:不得将本模型用于非法活动或蓄意造成伤害的行为。

使用本模型即表示您同意遵守相关法律标准并承担伦理责任。我们不承担任何滥用行为的责任,并坚决反对任何不道德的技术使用行为。


🔭 待办事项 / 未来工作

  • 支持 Docker 容器化部署
  • 优化推理速度
  • 添加量化功能以提高内存效率

伊织 xAI 2025-05-05(周一)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值