Dia-1.6B - 高保真文本转对话生成模型

最新推荐文章于 2025-05-13 16:43:49 发布

编程乐园

最新推荐文章于 2025-05-13 16:43:49 发布

阅读量706

点赞数 22

分类专栏： # AI 开源项目文章标签： python ai Dia

本文链接：https://blog.csdn.net/lovechris00/article/details/147748072

版权

AI 开源项目专栏收录该内容

224 篇文章

订阅专栏

项目横幅

文章目录

一、关于 Dia-1.6B

基础信息

Hugging Face ：https://huggingface.co/nari-labs/Dia-1.6B
HF Space : https://huggingface.co/spaces/nari-labs/Dia-1.6B
GitHub: https://github.com/nari-labs/dia
开发团队：Nari Labs
模型类型：专业型（语音生成）
社交媒体：Discord社区 | 体验预约
License : Apache License 2.0

模型简介

Dia是由Nari Labs开发的16亿参数文本转语音模型。该模型通过PytorchModelHubMixin集成推送至Hugging Face平台。

Dia能够直接从文本转录生成高度逼真的对话语音。用户可以通过音频条件控制输出效果，实现情感和语调调节。该模型还能生成非语言交流声音，如笑声、咳嗽声、清嗓声等。

为加速研究进程，我们开放了预训练模型检查点和推理代码。模型权重托管于Hugging Face，目前仅支持英文生成。

我们还提供了演示页面，将本模型与ElevenLabs Studio和Sesame CSM-1B进行对比。

(更新) 现已上线ZeroGPU空间！立即体验点击这里。感谢HF团队的支持 😃
加入我们的Discord社区获取技术支持和新功能通知
体验Dia增强版：生成趣味对话、混音创作并与朋友分享。🔮 加入等候名单获取抢先体验资格

二、快速入门⚡️

这将打开一个可供你使用的 Gradio 用户界面。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

或者如果您没有预先安装 uv：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

请注意，该模型并未针对特定语音进行微调。因此，每次运行模型时您将获得不同的语音效果。

您可以通过以下两种方式保持说话者音色的一致性：
1、添加音频提示（详细指南即将发布——目前可先尝试Gradio上的第二个示例）
2、固定随机种子

三、功能特性

通过[S1]和[S2]标签生成对话
生成非语言类标注如(laughs)、(coughs)等
- 以下非语言标签会被识别，但可能导致意外输出
- (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
语音克隆功能。详见example/voice_clone.py
- 在Hugging Face空间，您可以上传需要克隆的音频文件，并将对应文本转录内容放置在脚本前。请确保转录文本符合格式要求，模型将仅输出您脚本中的内容。

四、使用说明⚙️

作为 Python 库

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)