解决多卡机器CUDA Error Code 802(CUDA_ERROR_SYSTEM_NOT_READY)

解决多卡机器CentOS7安装完CUDA后,出现802错误码:Fabric Manager需要和Driver具有完全一致的版本号。

现象

在这里插入图片描述

检查

查看service状态:
在这里插入图片描述
显示failed,查看nvidia-smi中的Driver版本:
在这里插入图片描述

切换版本

sudo yum list installed | grep nvidia
sudo yum remove nvidia-fabric-manager.x86_64
# 注意版本后的-1
sudo yum install -y nvidia-fabric-manager-515.65.01-1
# 启动服务
sudo systemctl disable nvidia-fabricmanager
sudo systemctl enable nvidia-fabricmanager
sudo systemctl start nvidia-fabricmanager
sudo systemctl status nvidia-fabricmanager

确认状态:
在这里插入图片描述
cuda bin可以正常工作:
在这里插入图片描述

参考链接

NVIDIA-Fabric Manager安装
NVIDIA trouble shooting docs

On systems with NVSwitch, if you notice the CUDA_ERROR_SYSTEM_NOT_READY error being reported, then make sure that you install the same version of Fabric Manager as the CUDA driver.

Ubuntu 2004

ubuntu 2004上,安装cuda driver后,遇到同样的问题,解决略有差异:
下载deb包安装:

# 相应替换$main_version和$version为指定版本:nvidia-fabricmanager-$main_version_$version-1_amd64.deb
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-515_515.65.01-1_amd64.deb
dpkg -i nvidia-fabricmanager-515_515.65.01-1_amd64.deb

之前一步使用apt remove nvidia-fabricmanager-530卸载不彻底:
在这里插入图片描述
使用如下命令删除rc状态的包:

状态 rc 表示软件包已被卸载,但是配置文件仍然存在。这通常发生在卸载软件包时选择保留配置文件的情况下。

在这里插入图片描述

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果要在单机上使用多个GPU进行计算,可以使用`DataParallel`或者`DistributedDataParallel`这两个PyTorch提供的模块。其中,`DataParallel`将数据分割成多个部分,在多个GPU上分别计算,最后再将结果合并;`DistributedDataParallel`则更加复杂,需要手动进行进程和通信的设置,但是在性能方面更加出色。 使用`DataParallel`的话,可以这样修改: ```python import torch.nn as nn import torch.optim as optim import torch.distributed as dist import torch.utils.data.distributed as distributed device_ids = [0, 1] # 指定要使用的GPU设备编号 model = nn.DataParallel(model, device_ids=device_ids) # 使用DataParallel进行多GPU计算 # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(model.parameters(), lr=0.001) # 训练循环 for epoch in range(num_epochs): # 从数据集中加载数据 train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=4, pin_memory=True) # 训练模型 for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() ``` 使用`DistributedDataParallel`的话,可以这样修改: ```python import torch.nn as nn import torch.optim as optim import torch.distributed as dist import torch.utils.data.distributed as distributed # 初始化进程组 dist.init_process_group(backend='nccl', init_method='env://') # 设置分布式计算相关参数 world_size = dist.get_world_size() rank = dist.get_rank() torch.cuda.set_device(rank) # 加载模型,使用DistributedDataParallel进行多GPU计算 model = MyModel() model = nn.parallel.DistributedDataParallel(model) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(model.parameters(), lr=0.001) # 从数据集中加载数据 train_sampler = distributed.DistributedSampler(train_dataset) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=False, num_workers=4, pin_memory=True, sampler=train_sampler) # 训练循环 for epoch in range(num_epochs): train_sampler.set_epoch(epoch) for inputs, labels in train_loader: inputs, labels = inputs.cuda(), labels.cuda() optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() ``` 需要注意的是,使用`DistributedDataParallel`时需要先初始化进程组,设置分布式计算相关参数,以及使用`DistributedSampler`对数据进行分布式采样。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值