Dia-1.6B 在 Windows 系统下的成功部署及多人情景对话克隆实践

在人工智能语音技术蓬勃发展的当下,Nari Labs 精心研发的 Dia-1.6B 模型脱颖而出,迅速成为行业焦点。该模型具备极为卓越的超逼真对话生成能力,自开源于 GitHub 平台以来,热度一路飙升,短短几天便收获了超过 13K 的 Star,吸引了众多开发者与技术爱好者的目光,在业界引发了广泛讨论。​

Dia-1.6B 生成的音频对话,在语音质量上堪称出色,不仅如此,其对情绪与语速的把控达到了惊人的精准度。这种高度拟真的特性,让它在影视配音等领域展现出巨大的应用潜力,为相关行业开拓了全新的发展思路与可能性。​

项目的 GitHub 开源地址为:

nari-labs/dia:一种能够一次性生成超逼真对话的 TTS 模型。 

依照项目官方 README.MD 文档中的部署步骤操作,理论上能够顺利完成部署流程。

但在实际的 Windows 系统部署过程中,许多用户遭遇了一些难题,其中尤以 torch 相关问题最为棘手。

接下来,本文将详细梳理成功部署后的复盘步骤,为大家提供具有价值的参考。​

一、Python 版本选择​

经过实际验证,Dia-1.6B 项目可稳定支持至 Python 3.12 版本。而 Python 3.13 版本由于尚未经过充分测试,其与项目的兼容性暂不明确。

因此,在着手项目部署时,建议优先选用 Python 3.9~3.12 版本,以保障部署过程的稳定性与流畅性。​

二、Windows 部署详细步骤​

(一)步骤总览​

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
python -m pip install --upgrade pip setuptools wheel
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
pip install -e . -i https://mirrors.aliyun.com/pypi/simple/
python app.py

(二)步骤拆分详解​

1、克隆项目源代码

执行git clone https://github.com/nari-labs/dia.git命令,该操作会从 GitHub 仓库中将 Dia-1.6B 项目的源代码完整克隆至本地,为后续的部署工作奠定坚实的基础。​

git clone https://github.com/nari-labs/dia.git

2、进入项目目录

运行cd dia命令,进入已克隆好的项目目录。只有在此目录下,后续的一系列部署操作才能准确无误地执行,确保所有命令都在项目的正确环境中运行。​

cd dia

3、新建本地虚拟环境

使用python -m venv .venv命令,创建一个名为.venv的本地虚拟环境。虚拟环境能够为项目提供独立的 Python 运行空间,有效规避不同项目之间的依赖冲突,为项目的部署与稳定运行提供有力保障。​

python -m venv .venv

4、激活虚拟环境

通过source .venv/bin/activate命令激活刚刚创建的虚拟环境。激活后,后续安装的所有 Python 包都将被安装至该虚拟环境中,与系统环境实现有效隔离。​

source .venv/bin/activate

5、升级包管理和构建工具

执行python -m pip install --upgrade pip setuptools wheel命令,对 pip、setuptools 和 wheel 等包管理与构建工具进行升级。这一步对于后续安装项目依赖包至关重要,能够确保使用最新的功能与修复的漏洞,大幅提升安装的成功率与稳定性。​

python -m pip install --upgrade pip setuptools wheel

6、安装 torch

安装

在部署过程中,当执行到pip install -e.这一步时,系统报错提示存在包冲突问题。

经过仔细查看报错信息,发现项目运行所需的torch版本为torch==2.6.0 ,然而直接使用pip install -e.命令进行安装,可能由于各个依赖安装顺序的原因,自动安装完成后会出现一些包冲突的报错信息。

鉴于项目对 torch 版本有明确要求,在部署过程中需手动安装 torch。

首先,前往 PyTorch 官网,依据自己系统中安装的 CUDA 版本查找对应的安装命令。

例如,若系统中安装的是 CUDA 12.8,那么选择安装≤CUDA 12.8 版本的 torch 均可,因为这些版本能够向下兼容虚拟环境中的 CUDA 版本。

以 CUDA 12.6 为例,安装命令为:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

验证

安装完成后,可通过以下代码验证 torch 的安装情况

import torch # 导入PyTorch库​

print("PyTorch版本:", torch.__version__) # 打印PyTorch的版本号​

# 检查CUDA是否可用,并设置设备("cuda:0"或"cpu")​

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")​

print("设备:", device) # 打印当前使用的设备​

print("CUDA可用:", torch.cuda.is_available()) # 打印CUDA是否可用​

print("cuDNN已启用:", torch.backends.cudnn.enabled) # 打印cuDNN 是否已启用​

# 打印PyTorch支持的CUDA和cuDNN版本​

print("支持的CUDA版本:", torch.version.cuda)​

print("cuDNN版本:", torch.backends.cudnn.version())​

# 创建两个随机张量(默认在CPU上)​

x = torch.rand(5, 3)​

y = torch.rand(5, 3)​

# 将张量移动到指定设备(CPU或GPU)​

x = x.to(device)​

y = y.to(device)​

# 对张量进行逐元素相加​

z = x + y​

# 打印结果​

print("张量z的值:")​

print(z) # 输出张量z的内容​

验证PyTorch深度学习环境Torch和CUDA还有cuDNN是否正确配置的命令_验证pytorch和cuda的命令-CSDN博客

 

7、开始安装部署

执行pip install -e .或pip install -e . -i https://mirrors.aliyun.com/pypi/simple/
命令,完成项目的安装部署。

pip install -e .

或: 

pip install -e . -i https://mirrors.aliyun.com/pypi/simple/

其中,-e选项表示以可编辑模式安装项目,便于后续对项目进行修改与调试;

-i https://mirrors.aliyun.com/pypi/simple /选项则指定从阿里云的 PyPI 镜像源安装包,可显著加快下载速度。

若前面的步骤均正确执行,这一步通常能够顺利完成安装。​

8、运行项目

使用python app.py命令运行项目。在首次运行时,程序会自动下载一些必要的模型文件。待下载完成并出现链接后,点击该链接即可在浏览器中打开项目界面。​

三、测试运行状态​

测试一

自带的多人情景对话生成:

在项目浏览器界面中,点击下方第一行英文对话示例,随后点击 “Generate Audio” 按钮,即可对项目自带音色的情景对话生成功能进行测试,以此检验项目是否能够正常生成对话音频。​

 

测试二

克隆多人对话音色的声纹生成:

上传项目目录中的示例音频 “example_prompt.mp3”(该音频时长 4s,包含 2 人音色),接着点击第二行的英文示例,最后点击 “Generate Audio” 按钮,通过此操作测试对话音色的克隆功能,查看项目是否能够精准克隆音频中的音色。

 

总结

请项目官方 README.MD 文档,包括项目的免责声明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

love530love

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值