ubuntu20.04 + 安装cuda11.6过程 + pytorch安装记录

本文详细记录了在Linux系统中安装CUDA的过程,包括检查旧版CUDA、下载安装CUDA11.6,处理安装过程中遇到的权限、驱动冲突等问题,以及配置环境变量。此外,还提到了如何测试CUDA安装是否成功,并在不同虚拟环境中安装和管理PyTorch。
摘要由CSDN通过智能技术生成

1.检查卸载旧版cuda

nvcc --version,检查版本

由于我之前没有安装过,所以就不用卸载了

2.下载安装cuda

进入官网CUDA Toolkit Archive | NVIDIA Developer

根据情况下载:

按照后面的命令进行安装。

下面前面的一部分是我走的弯路和碎碎念

弯路:我有三个虚拟环境。不小心在tf环境中安装了,所以在base里面又装了一遍。后来发现,有安装包在home里面,所以把这两个环境的安装包都删除了,在pyt里面再装了以一次(我都搞糊涂了 反正最后又是在base中了...)

 base:

命令2:但是报错:无此命令

 查找原因:看看是不是有哪些步骤没做

参考文章:Linux安装CUDA的正确姿势https://community.modelscope.cn/63a02009dacf622b8df919b1.html?spm=1001.2101.3001.6650.16&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Eactivity-17-81879514-blog-128186800.pc_relevant_aa2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Eactivity-17-81879514-blog-128186800.pc_relevant_aa2&utm_relevant_index=17

1. 确认了nvidia显卡正常安装

2.确认禁用了nouveau:使用

lsmod | grep nouveau 查看,无输出则代表禁用

4.参考博客:sudo: sh cuda_11.4.0_470.42.01_linux.run:找不到命令:http://t.csdn.cn/wGfNs

和sudo: ./NVIDIA-Linux-x86_64-418.43.run: command not found:http://t.csdn.cn/qt6Mu

以我的代码为例,执行下面的两条命令。(参考博客,发现是因为没有赋予驱动写的权限,故而执行如下命令:)

chmod +x cuda_11.6.2_510.47.03_linux.run
sudo ./cuda_11.6.2_510.47.03_linux.run

完成后出现如下界面:

 这是因为:如果电脑没有安装Nvidia显卡驱动,安装会顺利进行;若已经安装了Nvidia驱动,会提醒移除。

参考博客后发现,如果需要安装cuda,cuda中有自己的安装包的,所以最好先就是卸载调原有驱动,禁用nouveau。当然,也可以在安装cuda时,取消勾选安装驱动的选项。由于我之前不了解cuda自带驱动,所以花费了大功夫来安装驱动,我不想卸载了(doge

选择continue。

不安装驱动。

刚开始选择了第一个报错了:

后来系统提示说根目录满了,删除了tmp文件,但/还是满了并且重启了一下.

然后,神奇,我的/下面本来100%,瞬间多了6gb,然后重复上面步骤,运行下面命令

chmod +x cuda_11.6.2_510.47.03_linux.run
sudo ./cuda_11.6.2_510.47.03_linux.run

后面的选择基本一样,只是后面不选择upgrade all,而是选择第二个。

然后就成功了:

3.接下来就是配置环境:

如果没有配置好环境的话,输入nvcc的命令是显示no command的。这时候千万不要使用下面的命令sudo apt install nvidia-cuda-toolkit,否则会再安装一遍cuda并且是最新版本的!会乱的!理由如下:

 在网上找了很多配置方法,但都失败了,下面是我成功了的配置方法:

参考博客:【解决方案】Ubuntu20.04 LTS CUDA已经安装但nvcc -V显示command not found:http://t.csdn.cn/ert6K

1.首先使用cd进入/usr/local的目录下面,一般这个目录下会有cuda'文件夹或者软链

2.打开并编辑环境变量的配置文件 。可能是我没安装vim,所以,我使用的是vi,vi命令就可以

vi ~/.bashrc

3.在进入的文件末尾,添加:

# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin

4.按:wq,保存并退出

5.刷新文件使其生效:

source ~/.bashrc

再输入nvcc -V就可以啦~

4.测试cuda,运行sample

参考博客:http://t.csdn.cn/sUuiP

/usr/local/cuda-11.6/samples 中为运行的样本,但是我的sample目录下面只有一个README_CUDA_Samples.txt 文件,根据里面的提示:

CUDA samples have moved! Please find up-to-date CUDA samples on our GitHub repository:

https://github.com/nvidia/cuda-samples

所以我去github网址上找到对应11.6版本sample:

我下载了下面tar.gz版本的code,然后进入默认的下载路径Downloads,使用命令:

tar -zxvf cuda-samples-11.6.tar.gz cuda-samples-11.6

即:将该文件cuda-samples-11.6.tar.gz下载到了我指定的文件夹cuda-samples-11.6之中。

如图:

(左边第一个为解压后,第二个为压缩文件)

然后,运行其中一个sample:1_Utilities,在那个sample的目录下面找到deviceQuery,进入该目录以后,再运行./deviceQuery,即可。最后Result输出pass,即测试通过!

pytorch安装

进入pytorch官网:Start Locally | PyTorch

选择对应版本安装:

 按照官网给出的command安装

安装成功!

------------------------------------------------------------------------------------------------

小问题:之前在自创的tf空间里面安装了tensorflow,操作了一下发现,在tf里面是可以import进tensorflow的包的,但是在base里面不行:

 而我是不小心在base空间里面装了pytorch,然后发现在base和自创的pyt空间里面都可以import进torch的包,(tf空间忘记试了就把pytorch删了,但我合理估计,应该是可以的吧?)

我卸载了pytorch,打算在pyt空间里面再下载一遍。

使用的卸载命令:

conda uninstall pytorch
conda uninstall libtorch

再按照上面的安装一遍,然后检测

果然,再自创的空间pyt里面安装了pytorch以后,就在pyt里面能import torch,而在base里面不行。可能base和自创的空间是一个包含的关系?

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值