在Windows11下安装完Ubuntu20.04双系统后配置环境的过程

最新推荐文章于 2024-07-18 18:40:01 发布

天寒心亦热

最新推荐文章于 2024-07-18 18:40:01 发布

阅读量1.5k

点赞数 17

分类专栏： Linux Python 文章标签： linux ubuntu python cuda NVIDIA

本文链接：https://blog.csdn.net/aaaccc444/article/details/135161634

版权

Python 同时被 2 个专栏收录

96 篇文章 2 订阅

订阅专栏

Linux

73 篇文章 0 订阅

订阅专栏

本文详细介绍了在Ubuntu系统中检查显卡信息、安装NVIDIA驱动（包括正常安装、报错处理）、以及与Anaconda、CUDA和PyTorch版本的匹配，提供了解决常见问题的步骤和资源链接。

摘要由CSDN通过智能技术生成

1.NVIDIA驱动检测及安装

1.1 查看显卡信息

# 显示系统中所有通过PCI总线连接的VGA兼容控制器信息。包括集成显卡即与CPU内置在同一块芯片上的显卡）以及独立显卡。
lspci | grep VGA  
# 将显示有关系统中所有NVIDIA显卡的信息。
lspci | grep NVIDIA

解释：

VGA compatible controller: Intel Corporation Device a788 (rev 04) :表示系统中有一个Intel的VGA兼容控制器，设备ID为"a788"，修订版本为"rev 04"。可能是集成在CPU中的Intel显卡。

VGA compatible controller: NVIDIA Corporation Device 28e0 (rev a1)：表示系统中有一个NVIDIA的VGA兼容控制器，设备ID为"28e0"，修订版本为"rev a1"。应该是独立的NVIDIA显卡。

Audio device: NVIDIA Corporation Device 22be (rev a1) ：表示系统中有一个NVIDIA的音频设备，设备ID为"22be"，修订版本也为"rev a1"。这个音频设备很可能与前面的NVIDIA显卡相关，可能是显卡上的HDMI或DisplayPort音频输出接口。

1.2 查看当前显卡的驱动信息

nvidia-smi # 报错：NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

1.3 调用显卡驱动程序

nvidia-settings # 显示找不到这个命令

至此说明系统中没有驱动或者原本的驱动不能使用了。（因为系统是刚刚装好，应该是不存在驱动的。有的教程要禁止使用默认驱动或者清除掉以前的驱动信息，这里我都没有涉及到。）

1.4 安装驱动

1.4.1 正常安装

第一步：查看系统推荐的版本

ubuntu-drivers devices

我选择的是系统推荐的版本：nvidia-driver-545-open

第二步：安装命令

（我这里直接安装成功，若使用此命令安装失败或者报错请查询其他资料）

sudo apt install nvidia-driver-545-open

第三步：重启

reboot

安装成功之后要重启，不然没有效果

至此系统里就有了自己的驱动

1.4.2 报错

使用ubuntu-drivers devices命令时，没有输出内容，具体是怎么解决的，想不起来了，请参考其他博客吧。

1.4.3 驱动查看

命令

nvidia-smi

图片中Driver Version: 545.29.06 是指安装的显卡驱动版本；CUDA Version: 12.3是指安装的CUDA版本，即cudatoolkit版本，也是指本机器支持的最高版本。

CUDA版本与驱动版本的对应

查询网站：

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

Linux系统下：如果想要安装CUDA 11.6 GA，那你的驱动版本起码得是510.39.01

如果你的驱动版本已经达到了546.12，那上表里的CUDA你都能安装（CUDA Toolkit是可以同时安装多个版本的，用哪个版本的CUDA就把该版本写入环境变量就可以）。

2.Anaconda的安装

下载自己需要的anaconda版本版本就可以了

https://www.anaconda.com/download#downloads

Linux-Ubuntu18.04安装anaconda及python解释器环境的配置

3.安装cuda、cudnn、pytorch

最初我是按照一篇博客Linux 的 anaconda 虚拟环境下安装指定的 cuda、cudnn、pytorch的步骤安装了如下版本的cuda和cudnn。由于我一直想使用torch0.4.1版本，因此是根据torch的版本确定cuda和cudnn的版本。

三者的对应的关系可以在pytorch找到：

https://pytorch.org/get-started/previous-versions/

但是我安装完之后，运行自己代码出现了错误：

RuntimeError: cublas runtime error : the GPU program failed to execute at /tmp/pip-req-build-jh50bw28/aten/src/THC/THCBlas.cu:259

解决方案一：

pytorch出现RuntimeError: cublas runtime error :cu:259问题，及解决方法

直觉认为可能有这方面的原因，因为torch0.4.1版本能正确安装就不容易。另外，cudnn7.1.2 cuda9.0 torch0.4.1就针对版本来说应该是适配的。

解决方案二：

cublas 运行时错误：GPU 程序无法在 /pytorch/aten/src/THC/THCBlas.cu:450 处执行

采取了这篇博客的处理方式，对torch版本进行升级

4.其他报错

File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_internal/network/utils.py", line 87, in response_chunks decode_content=False, File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 576, in stream data = self.read(amt=amt, decode_content=decode_content) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 541, in read raise IncompleteRead(self._fp_bytes_read, self.length_remaining) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/contextlib.py", line 99, in exit self.gen.throw(type, value, traceback) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 443, in _error_catcher raise ReadTimeoutError(self._pool, None, "Read timed out.") pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.

解决方案：网络不稳定

配置阿里云镜像源：

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

参考博客

四、ubuntu20.04下找不到NVIDIA相关命令

给Ubuntu安装驱动（nvidia）保姆级教程（方法一）

显卡版本（算力）、驱动版本（Driver Version）、CUDA Toolkit（CUDA Version）、PyTorch版本之间的匹配

天寒心亦热

关注

17
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录