#01【chatglm】双GPU微调时报错“不在相同设备上”-已解决

最新推荐文章于 2023-12-06 16:00:29 发布

一意AI增效家

最新推荐文章于 2023-12-06 16:00:29 发布

阅读量567

点赞数

分类专栏： chatglm 文章标签：人工智能语言模型 nlp

本文链接：https://blog.csdn.net/ouhuixiong/article/details/132047221

版权

chatglm 专栏收录该内容

4 篇文章 2 订阅

订阅专栏

文章讲述了在NLP学习群中遇到的双卡微调报错问题，分析了错误原因——设备不一致，提供了配置CUDA库、PyTorch和使用DistributedDataParallel的解决方案。作者强调了确保所有张量在同一设备上操作的重要性，并给出了详细的代码示例。

摘要由CSDN通过智能技术生成

公众号每天更新5条大模型问题及解决方案

今天，在【NLP学习群】中，一位同学反馈，单卡微调时很顺利，但是双显卡微调时显示错误，他自己折腾好几天都没解决。

01 报错信息分析：

报错信息如下：

return torch.embedding(weight, input, padding_idx, scale_grad_byfreq, sparse)RuntimeError: Expected all tensors to be on the same device. but fouund at least two devices, cuda:0 andcuda:1!(when checking argument for argument index in method wrapperCUDA index_select)

报错分析：

这个报错信息表明在你的代码中涉及到了至少两个不同的CUDA设备，其中一个在cuda:0上，另一个在cuda:1上。在PyTorch中，所有涉及的张量必须在同一个设备上，否则会出现这个错误。

出现这种情况的原因可能是你的代码中有多个地方，如张量创建、张量运算等，写训练代码没有正确指定设备导致的。

为了解决这个问题，你需要确保在所有操作中使用相同的设备。

02 解决方案

a 配置CUDA 库

需要配置它们以支持双卡训练。可以使用以下命令配置 CUDA 库：

export CUDA_VISIBLE_DEVICES=0,1

b 配置PyTorch

你需要根据PyTorch实际安装路径来配置，让他调用torchvision库

export PYTHONPATH=/path/to/pytorch/炬芯库  export PYTHONPATH=/path/to/pytorch/炬芯库/torchvision

c 写训练代码

使用 Distributed Data Parallel（DDP）实现双卡微调，使用了 dist.all_reduce() 函数来实现跨 GPU 同步梯度。这将确保每个 GPU 上的模型参数都得到更新。

import torch  import torch.nn as nn  import torch.distributed as dist# 设置可见的 GPU 设备  os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"  os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"  # 设置为您想要使用的 GPU 编号，多个 GPU 之间用逗号隔开# 创建模型和损失函数  model = nn.DataParallel(torch.nn.Linear(10, 1))  # 使用 DataParallel 包装模型  loss_fn = torch.nn.MSELoss()device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  model = model.to(device)  loss_fn = loss_fn.to(device)# 初始化分布式数据并设置器  cluster_def = dist.cluster.ClusterDef()  cluster_def.parse_from_env()  dist.init_cluster(cluster_def, rank=0)# 训练模型  num_epochs = 10  for epoch in range(num_epochs):     for inputs, targets in dataloader:         inputs, targets = inputs.to(device), targets.to(device)  # 将数据移动到设备         optimizer.zero_grad()                  # 使用 DDP 将模型复制到各个 GPU         model = model.module if hasattr(model, 'module') else model         models = [model(inputs) for _ in range(torch.numel(inputs))]                  # 计算损失并更新梯度         losses = [loss_fn(outputs, targets) for outputs in models]         loss = torch.stack(losses).mean()         loss.backward()                  # 执行梯度同步         dist.all_reduce(损失.grad, op=dist.reduce_mean)                  # 更新模型参数         optimizer.step()