ubuntu20.04 + 安装cuda11.6过程 + pytorch安装记录

不会写代码的人员

已于 2023-07-15 22:28:11 修改

阅读量6.1k

点赞数 1

文章标签：深度学习人工智能

于 2023-01-22 12:12:15 首次发布

本文链接：https://blog.csdn.net/rouyiou/article/details/128747228

版权

本文详细记录了在Linux系统中安装CUDA的过程，包括检查旧版CUDA、下载安装CUDA11.6，处理安装过程中遇到的权限、驱动冲突等问题，以及配置环境变量。此外，还提到了如何测试CUDA安装是否成功，并在不同虚拟环境中安装和管理PyTorch。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.检查卸载旧版cuda

nvcc --version,检查版本

由于我之前没有安装过，所以就不用卸载了

2.下载安装cuda

进入官网CUDA Toolkit Archive | NVIDIA Developer

根据情况下载：

按照后面的命令进行安装。

下面前面的一部分是我走的弯路和碎碎念

弯路：我有三个虚拟环境。不小心在tf环境中安装了，所以在base里面又装了一遍。后来发现，有安装包在home里面，所以把这两个环境的安装包都删除了，在pyt里面再装了以一次（我都搞糊涂了反正最后又是在base中了...）

base：

命令2：但是报错：无此命令

查找原因：看看是不是有哪些步骤没做

参考文章：Linux安装CUDA的正确姿势https://community.modelscope.cn/63a02009dacf622b8df919b1.html?spm=1001.2101.3001.6650.16&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Eactivity-17-81879514-blog-128186800.pc_relevant_aa2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Eactivity-17-81879514-blog-128186800.pc_relevant_aa2&utm_relevant_index=17

1. 确认了nvidia显卡正常安装

2.确认禁用了nouveau：使用

lsmod | grep nouveau 查看，无输出则代表禁用

4.参考博客：sudo: sh cuda_11.4.0_470.42.01_linux.run：找不到命令：http://t.csdn.cn/wGfNs

和sudo: ./NVIDIA-Linux-x86_64-418.43.run: command not found：http://t.csdn.cn/qt6Mu

以我的代码为例，执行下面的两条命令。（参考博客，发现是因为没有赋予驱动写的权限，故而执行如下命令：）

chmod +x cuda_11.6.2_510.47.03_linux.run
sudo ./cuda_11.6.2_510.47.03_linux.run

完成后出现如下界面：

这是因为：如果电脑没有安装Nvidia显卡驱动，安装会顺利进行；若已经安装了Nvidia驱动，会提醒移除。

参考博客后发现，如果需要安装cuda，cuda中有自己的安装包的，所以最好先就是卸载调原有驱动，禁用nouveau。当然，也可以在安装cuda时，取消勾选安装驱动的选项。由于我之前不了解cuda自带驱动，所以花费了大功夫来安装驱动，我不想卸载了（doge

选择continue。

不安装驱动。

刚开始选择了第一个报错了：

后来系统提示说根目录满了，删除了tmp文件，但/还是满了并且重启了一下.

然后，神奇，我的/下面本来100%，瞬间多了6gb，然后重复上面步骤，运行下面命令

chmod +x cuda_11.6.2_510.47.03_linux.run
sudo ./cuda_11.6.2_510.47.03_linux.run

后面的选择基本一样，只是后面不选择upgrade all，而是选择第二个。

然后就成功了：

3.接下来就是配置环境：

如果没有配置好环境的话，输入nvcc的命令是显示no command的。这时候千万不要使用下面的命令sudo apt install nvidia-cuda-toolkit，否则会再安装一遍cuda并且是最新版本的！会乱的！理由如下：

在网上找了很多配置方法，但都失败了，下面是我成功了的配置方法：

参考博客：【解决方案】Ubuntu20.04 LTS CUDA已经安装但nvcc -V显示command not found：http://t.csdn.cn/ert6K

1.首先使用cd进入/usr/local的目录下面，一般这个目录下会有cuda'文件夹或者软链

2.打开并编辑环境变量的配置文件。可能是我没安装vim，所以，我使用的是vi，vi命令就可以

vi ~/.bashrc

3.在进入的文件末尾，添加：

# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin

4.按：wq，保存并退出

5.刷新文件使其生效：

source ~/.bashrc

再输入nvcc -V就可以啦～

4.测试cuda，运行sample

参考博客：http://t.csdn.cn/sUuiP

在 /usr/local/cuda-11.6/samples 中为运行的样本，但是我的sample目录下面只有一个README_CUDA_Samples.txt 文件，根据里面的提示：

CUDA samples have moved! Please find up-to-date CUDA samples on our GitHub repository:

https://github.com/nvidia/cuda-samples

所以我去github网址上找到对应11.6版本sample：

我下载了下面tar.gz版本的code，然后进入默认的下载路径Downloads，使用命令：

tar -zxvf cuda-samples-11.6.tar.gz cuda-samples-11.6

即：将该文件cuda-samples-11.6.tar.gz下载到了我指定的文件夹cuda-samples-11.6之中。

如图：

（左边第一个为解压后，第二个为压缩文件）

然后，运行其中一个sample：1_Utilities，在那个sample的目录下面找到deviceQuery，进入该目录以后，再运行./deviceQuery，即可。最后Result输出pass，即测试通过！

pytorch安装

进入pytorch官网：Start Locally | PyTorch

选择对应版本安装：

按照官网给出的command安装

安装成功！

------------------------------------------------------------------------------------------------

小问题：之前在自创的tf空间里面安装了tensorflow，操作了一下发现，在tf里面是可以import进tensorflow的包的，但是在base里面不行：

而我是不小心在base空间里面装了pytorch，然后发现在base和自创的pyt空间里面都可以import进torch的包，（tf空间忘记试了就把pytorch删了，但我合理估计，应该是可以的吧？）

我卸载了pytorch，打算在pyt空间里面再下载一遍。

使用的卸载命令：

conda uninstall pytorch
conda uninstall libtorch

再按照上面的安装一遍，然后检测

果然，再自创的空间pyt里面安装了pytorch以后，就在pyt里面能import torch，而在base里面不行。可能base和自创的空间是一个包含的关系？