在Windows11下安装完Ubuntu20.04双系统后配置环境的过程

73 篇文章 0 订阅
本文详细介绍了在Ubuntu系统中检查显卡信息、安装NVIDIA驱动(包括正常安装、报错处理)、以及与Anaconda、CUDA和PyTorch版本的匹配,提供了解决常见问题的步骤和资源链接。
摘要由CSDN通过智能技术生成

1.NVIDIA驱动检测及安装

1.1 查看显卡信息

# 显示系统中所有通过PCI总线连接的VGA兼容控制器信息。包括集成显卡即与CPU内置在同一块芯片上的显卡)以及独立显卡。
lspci | grep VGA  
# 将显示有关系统中所有NVIDIA显卡的信息。
lspci | grep NVIDIA

解释:

VGA compatible controller: Intel Corporation Device a788 (rev 04) :表示系统中有一个Intel的VGA兼容控制器,设备ID为"a788",修订版本为"rev 04"。可能是集成在CPU中的Intel显卡。

VGA compatible controller: NVIDIA Corporation Device 28e0 (rev a1):表示系统中有一个NVIDIA的VGA兼容控制器,设备ID为"28e0",修订版本为"rev a1"。应该是独立的NVIDIA显卡。

Audio device: NVIDIA Corporation Device 22be (rev a1) :表示系统中有一个NVIDIA的音频设备,设备ID为"22be",修订版本也为"rev a1"。这个音频设备很可能与前面的NVIDIA显卡相关,可能是显卡上的HDMI或DisplayPort音频输出接口。

1.2 查看当前显卡的驱动信息

nvidia-smi # 报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

1.3 调用显卡驱动程序

nvidia-settings # 显示找不到这个命令

至此说明系统中没有驱动或者原本的驱动不能使用了。(因为系统是刚刚装好,应该是不存在驱动的。有的教程要禁止使用默认驱动或者清除掉以前的驱动信息,这里我都没有涉及到。) 

1.4 安装驱动

1.4.1 正常安装
第一步:查看系统推荐的版本
ubuntu-drivers devices

我选择的是系统推荐的版本:nvidia-driver-545-open

第二步:安装命令

(我这里直接安装成功,若使用此命令安装失败或者报错请查询其他资料)

sudo apt install nvidia-driver-545-open

第三步:重启
reboot

安装成功之后要重启,不然没有效果

至此系统里就有了自己的驱动

1.4.2 报错

使用ubuntu-drivers devices命令时,没有输出内容,具体是怎么解决的,想不起来了,请参考其他博客吧。

1.4.3 驱动查看

命令
nvidia-smi

图片中Driver Version: 545.29.06 是指安装的显卡驱动版本;CUDA Version: 12.3是指安装的CUDA版本,即cudatoolkit版本,也是指本机器支持的最高版本。

CUDA版本与驱动版本的对应

查询网站:

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

Linux系统下:如果想要安装CUDA 11.6 GA,那你的驱动版本起码得是510.39.01

如果你的驱动版本已经达到了546.12,那上表里的CUDA你都能安装(CUDA Toolkit是可以同时安装多个版本的,用哪个版本的CUDA就把该版本写入环境变量就可以)。

2.Anaconda的安装

下载自己需要的anaconda版本版本就可以了

https://www.anaconda.com/download#downloads

Linux-Ubuntu18.04安装anaconda及python解释器环境的配置

3.安装cuda、cudnn、pytorch

最初我是按照一篇博客Linux 的 anaconda 虚拟环境下安装指定的 cuda、cudnn、pytorch的步骤安装了如下版本的cuda和cudnn。由于我一直想使用torch0.4.1版本,因此是根据torch的版本确定cuda和cudnn的版本。

三者的对应的关系可以在pytorch找到:

https://pytorch.org/get-started/previous-versions/

但是我安装完之后,运行自己代码出现了错误:

RuntimeError: cublas runtime error : the GPU program failed to execute at /tmp/pip-req-build-jh50bw28/aten/src/THC/THCBlas.cu:259

解决方案一:

pytorch出现RuntimeError: cublas runtime error :cu:259问题,及解决方法

直觉认为可能有这方面的原因,因为torch0.4.1版本能正确安装就不容易。另外,cudnn7.1.2  cuda9.0  torch0.4.1就针对版本来说应该是适配的。

解决方案二:

cublas 运行时错误:GPU 程序无法在 /pytorch/aten/src/THC/THCBlas.cu:450 处执行

采取了这篇博客的处理方式,对torch版本进行升级

4.其他报错

File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_internal/network/utils.py", line 87, in response_chunks decode_content=False, File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 576, in stream data = self.read(amt=amt, decode_content=decode_content) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 541, in read raise IncompleteRead(self._fp_bytes_read, self.length_remaining) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/contextlib.py", line 99, in exit self.gen.throw(type, value, traceback) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 443, in _error_catcher raise ReadTimeoutError(self._pool, None, "Read timed out.") pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.

解决方案:网络不稳定

配置阿里云镜像源:

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

参考博客

四、ubuntu20.04下找不到NVIDIA相关命令

给Ubuntu安装驱动(nvidia)保姆级教程(方法一)

显卡版本(算力)、驱动版本(Driver Version)、CUDA Toolkit(CUDA Version)、PyTorch版本之间的匹配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天寒心亦热

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值