Ubuntu上进行深度学习任务常见的报错及问题整理(持续更新)

1.报错RuntimeError:CUDA unknown error - this may be due to an incorrectly set up environment,e.g. changing .....

解决方法: 安装nvidia-modprobe

sudo apt-get install nvidia-modprobe

安装信息:

2.用conda 激活自己创建的虚拟环境时报错:CommandNotFoundError

报错信息:

解决办法:

在终端执行

source activate
source deactivate

3.python安装带有setup.py的依赖库包

一般依赖库包使用pip install 或conda install即可安装,pip或conda安装的库包是开发人员已经打包好的,即用型。

但很多论文的源码是带setup.py的文件夹,不能直接安装,这种文件夹相当于个人制作的的第三方库包。

这种库包通过将setup.py的文件编译后,生成系统可以用的包。

解决方法:

进入含有setup.py的文件夹内,终端输入

python setuo.py build
python setup.py install

注意:

需要先进入该代码的环境,比如base环境下。若是通过annaconda安装的虚拟环境,则需要先配置好这个虚拟环境,然后activate激活该环境,再进入文件夹,终端输入python指令

如果没有报错,这个库就安装好了,可以在源文件readme.md的指引下尝试在你的python代码中import这个库。

关于setup.py文件可以参考这篇学习理解 Python 的 setup.py

4.在annaconda虚拟环境下安装库包时报错CondaVerificationError / Clobber Error / Safety Error

报错信息:

可能原因:用pip和conda同时安装了一个包

解决方法:

终端键入以下命令,删除缓存包
conda clean --packages --tarballs

然后重新安装
 

5.pycharm配置conda环境时在env的虚拟环境的bin下找不到可执行文件

  1. 确认Conda是否正确安装:首先,请确保已经成功安装了Conda,并且添加了Conda的可执行文件路径到系统的环境变量中。在命令行窗口中输入"conda --version"来检查安装是否正确。

  2. 检查环境变量配置:如果你已经正确安装了Conda,但仍然无法找到可执行文件,可能是因为环境变量配置有问题。请确保将Conda的可执行文件路径添加到系统的环境变量中。

  3. 重新安装Conda:如果你已经尝试了上述方法仍然无效,可以考虑重新安装Conda。首先,卸载当前的Conda版本,然后重新下载并按照官方指南进行安装。

6.CUDA、CUDA Toolkit、nvcc、cuDNN之间的关系及版本兼容性

参考文章

图文并茂讲解CUDA, CUDA Toolkit, CUDA Driver, CUDA Runtime, nvcc之间的关系及其版本兼容性

名词解释及相互关系:

CUDA就是让python等程序语言可以同时在CPU和GPU上跑的一个平台。
CUDA Driver: 运行CUDA应用程序需要系统至少有一个具有CUDA功能的GPU和与CUDA工具包兼容的驱动程序。CUDA Driver是向后兼容的,每个版本的CUDA工具包都对应一个最低版本的CUDA Driver,也就是说如果你安装的CUDA Driver版本比官方推荐的还低,那么很可能会无法正常运行。

NVCC:NVCC是CUDA的编译器,也属于CUDA toolkit
cuDNN:全称为NVIDIA CUDA® Deep Neural Network library,是NVIDIA专门针对深度神经网络中的基础操作而设计基于GPU的加速库。cuDNN为深度神经网络中的标准流程提供了高度优化的实现方式,例如convolution、pooling、normalization以及activation layers的前向以及后向过程。
CUDA这个平台一开始并没有安装cuDNN库,当开发者们需要用到深度学习GPU加速时才安装cuDNN库,工作速度相较CPU快很多。

CUDA Toolkit (nvidia): CUDA完整的工具安装包,其中提供了 Nvidia 驱动程序、开发 CUDA 程序相关的开发工具包等可供安装的选项。包括 CUDA 程序的编译器、IDE、调试器等,CUDA 程序所对应的各式库文件以及它们的头文件。
注意:这里的CUDA Toolkit指的是CUDA官网下载的完整版,不是指Pytorch附带下载的CUDA不完整版。

CUDA Toolkit (Pytorch): CUDA不完整的工具安装包,其主要包含在使用 CUDA 相关的功能时所依赖的动态链接库。不会安装驱动程序,也不会安装编译工具(nvcc)。

注:安装pytorch时会选择Compute platfrom,这里的如果选择CUDA系列,会安装cuDNN和不完整的CUDA Toolkit

如图:

版本兼容性

CUDA版本要和GPU算力相匹配,如A100的算力是8.0,需要CUDA版本大于11.0
查看GPU与算力对应:https://en.wikipedia.org/wiki/CUDA

CUDA driver版本需要大于等于CUDA runtime版本
CUDA driver版本通过nvidia-smi命令查看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值