Installed CUDA version 12.1 does not match the version torch was compiled with 11.7

LMFlow 跑脚本  ./scripts/run_finetune.sh报错

主要原因是本机安装的cuda版本与torch的编译版本不一致

报错内容:

Exception: >- DeepSpeed Op Builder: Installed CUDA version 12.1 does not match the version torch was compiled with 11.7, unable to compile cuda/cpp extensions without a matching cuda version.
Exception ignored in: <function DeepSpeedCPUAdam.__del__ at 0x7f1d287e0670>
Traceback (most recent call last):
  File "/home/gaosong/anaconda3/envs/gpt/lib/python3.9/site-packages/deepspeed/ops/adam/cpu_adam.py", line 110, in __del__
    self.ds_opt_adam.destroy_adam(self.opt_id)
AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'
Exception ignored in: <function DeepSpeedCPUAdam.__del__ at 0x7f387c349670>
Traceback (most recent call last):
  File "/home/gaosong/anaconda3/envs/gpt/lib/python3.9/site-packages/deepspeed/ops/adam/cpu_adam.py", line 110, in __del__
    self.ds_opt_adam.destroy_adam(self.opt_id)
AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'

解决思路1: 找到torch版本与cuda的关系, 升级torch版本

目前项目依赖的版本是: torch==2.0.0

解决思路: 降cuda版本

查看torch cuda版本

import torch
print(torch.version)
print(torch.__version__)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
print(torch.cuda.is_available())

通过命令查询服务器CUDA版本

nvidia-smi

思路1升级2.0.1 发现cuda仍然是11.7, 在requirements.txt无法指定cuda版本

思路2降cuda版本,太麻烦

通过新方法解决了问题:  如下目录通过命令 print(torch.version) 获得

vi /home/gaosong/anaconda3/envs/gpt/lib/python3.9/site-packages/torch/version.py

修改 cuda = '11.7' => cuda = '12.1'

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值