Dia-1.6B 在 Windows 系统下的成功部署及多人情景对话克隆实践

最新推荐文章于 2025-05-03 09:07:35 发布

love530love

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.2k

点赞数 23

文章标签：人工智能 pytorch windows 深度学习克隆

本文链接：https://blog.csdn.net/u014451778/article/details/147605755

版权

在人工智能语音技术蓬勃发展的当下，Nari Labs 精心研发的 Dia-1.6B 模型脱颖而出，迅速成为行业焦点。该模型具备极为卓越的超逼真对话生成能力，自开源于 GitHub 平台以来，热度一路飙升，短短几天便收获了超过 13K 的 Star，吸引了众多开发者与技术爱好者的目光，在业界引发了广泛讨论。

Dia-1.6B 生成的音频对话，在语音质量上堪称出色，不仅如此，其对情绪与语速的把控达到了惊人的精准度。这种高度拟真的特性，让它在影视配音等领域展现出巨大的应用潜力，为相关行业开拓了全新的发展思路与可能性。

项目的 GitHub 开源地址为：

nari-labs/dia：一种能够一次性生成超逼真对话的 TTS 模型。

依照项目官方 README.MD 文档中的部署步骤操作，理论上能够顺利完成部署流程。

但在实际的 Windows 系统部署过程中，许多用户遭遇了一些难题，其中尤以 torch 相关问题最为棘手。

接下来，本文将详细梳理成功部署后的复盘步骤，为大家提供具有价值的参考。

一、Python 版本选择

经过实际验证，Dia-1.6B 项目可稳定支持至 Python 3.12 版本。而 Python 3.13 版本由于尚未经过充分测试，其与项目的兼容性暂不明确。

因此，在着手项目部署时，建议优先选用 Python 3.9~3.12 版本，以保障部署过程的稳定性与流畅性。

二、Windows 部署详细步骤

（一）步骤总览

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
python -m pip install --upgrade pip setuptools wheel
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
pip install -e . -i https://mirrors.aliyun.com/pypi/simple/
python app.py

（二）步骤拆分详解

1、克隆项目源代码

执行git clone https://github.com/nari-labs/dia.gi t命令，该操作会从 GitHub 仓库中将 Dia-1.6B 项目的源代码完整克隆至本地，为后续的部署工作奠定坚实的基础。

git clone https://github.com/nari-labs/dia.git

2、进入项目目录

运行cd dia命令，进入已克隆好的项目目录。只有在此目录下，后续的一系列部署操作才能准确无误地执行，确保所有命令都在项目的正确环境中运行。

cd dia

3、新建本地虚拟环境

使用python -m venv .venv命令，创建一个名为.venv的本地虚拟环境。虚拟环境能够为项目提供独立的 Python 运行空间，有效规避不同项目之间的依赖冲突，为项目的部署与稳定运行提供有力保障。

python -m venv .venv

4、激活虚拟环境

通过source .venv/bin/activate命令激活刚刚创建的虚拟环境。激活后，后续安装的所有 Python 包都将被安装至该虚拟环境中，与系统环境实现有效隔离。

source .venv/bin/activate

5、升级包管理和构建工具

执行python -m pip install --upgrade pip setuptools wheel命令，对 pip、setuptools 和 wheel 等包管理与构建工具进行升级。这一步对于后续安装项目依赖包至关重要，能够确保使用最新的功能与修复的漏洞，大幅提升安装的成功率与稳定性。

python -m pip install --upgrade pip setuptools wheel

6、安装 torch

安装

在部署过程中，当执行到pip install -e.这一步时，系统报错提示存在包冲突问题。

经过仔细查看报错信息，发现项目运行所需的torch版本为torch==2.6.0 ，然而直接使用pip install -e.命令进行安装，可能由于各个依赖安装顺序的原因，自动安装完成后会出现一些包冲突的报错信息。

鉴于项目对 torch 版本有明确要求，在部署过程中需手动安装 torch。

首先，前往 PyTorch 官网，依据自己系统中安装的 CUDA 版本查找对应的安装命令。

例如，若系统中安装的是 CUDA 12.8，那么选择安装≤CUDA 12.8 版本的 torch 均可，因为这些版本能够向下兼容虚拟环境中的 CUDA 版本。

以 CUDA 12.6 为例，安装命令为:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

验证

安装完成后，可通过以下代码验证 torch 的安装情况

import torch # 导入PyTorch库

print("PyTorch版本：", torch.__version__) # 打印PyTorch的版本号

# 检查CUDA是否可用，并设置设备（"cuda:0"或"cpu"）

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

print("设备：", device) # 打印当前使用的设备

print("CUDA可用：", torch.cuda.is_available()) # 打印CUDA是否可用

print("cuDNN已启用：", torch.backends.cudnn.enabled) # 打印cuDNN 是否已启用

# 打印PyTorch支持的CUDA和cuDNN版本

print("支持的CUDA版本：", torch.version.cuda)

print("cuDNN版本：", torch.backends.cudnn.version())

# 创建两个随机张量（默认在CPU上）

x = torch.rand(5, 3)

y = torch.rand(5, 3)

# 将张量移动到指定设备（CPU或GPU）

x = x.to(device)

y = y.to(device)

# 对张量进行逐元素相加

z = x + y

# 打印结果

print("张量z的值：")

print(z) # 输出张量z的内容

验证PyTorch深度学习环境Torch和CUDA还有cuDNN是否正确配置的命令_验证pytorch和cuda的命令-CSDN博客

7、开始安装部署

执行pip install -e .或pip install -e . -i https://mirrors.aliyun.com/pypi/simple/
命令，完成项目的安装部署。

pip install -e .

或：

pip install -e . -i https://mirrors.aliyun.com/pypi/simple/

其中，-e选项表示以可编辑模式安装项目，便于后续对项目进行修改与调试；

-i https://mirrors.aliyun.com/pypi/simple /选项则指定从阿里云的 PyPI 镜像源安装包，可显著加快下载速度。

若前面的步骤均正确执行，这一步通常能够顺利完成安装。

8、运行项目

使用python app.p y命令运行项目。在首次运行时，程序会自动下载一些必要的模型文件。待下载完成并出现链接后，点击该链接即可在浏览器中打开项目界面。

三、测试运行状态

测试一

自带的多人情景对话生成：

在项目浏览器界面中，点击下方第一行英文对话示例，随后点击 “Generate Audio” 按钮，即可对项目自带音色的情景对话生成功能进行测试，以此检验项目是否能够正常生成对话音频。

测试二

克隆多人对话音色的声纹生成：

上传项目目录中的示例音频 “example_prompt.mp3”（该音频时长 4s，包含 2 人音色），接着点击第二行的英文示例，最后点击 “Generate Audio” 按钮，通过此操作测试对话音色的克隆功能，查看项目是否能够精准克隆音频中的音色。

总结

请项目官方 README.MD 文档，包括项目的免责声明