最全：在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论

最新推荐文章于 2023-01-04 11:23:32 发布

Bourne_Boom

最新推荐文章于 2023-01-04 11:23:32 发布

阅读量639

点赞数

分类专栏： Ubuntu 强化学习深度学习

本文链接：https://blog.csdn.net/linyijiong/article/details/116818319

版权

强化学习同时被 3 个专栏收录

21 篇文章 6 订阅

订阅专栏

Ubuntu

9 篇文章 0 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本，只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答，抛砖引玉，欢迎客官留下意见。

0. 安装前

为了后面顺利进行，确保系统不存在Nvidia Driver，Cuda相关文件。

sudo apt-get purge nvidia*

sudo apt --purge remove "cublas*" "cuda*"

sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2

sudo apt-get autoremove

（参考1，参考2）

安装Python 3.7

sudo apt install python3.7
sudo apt-get install python3.7-dev

1. 安装 Nvidia Driver

这是风险最大的一步。（若使用run file进行安装完之后，若果没有相关的系统变量设置，会导致reboot后卡在ubuntu的登录界面，无法进入系统。若使用runfile请看参考4。）

本文通过apt在standard Ubuntu Repository进行driver的安装：

ubuntu-drivers devices
sudo apt install nvidia-driver-460

其中nvidia-driver-<version>中的版本号可以通过ubuntu-drivers devices来查看相关推荐，并且也可以查看本机的Gpu卡型。

（本文选择：driver : nvidia-driver-460 - third-party non-free recommended）

安装成功后，重启电脑

reboot

本步骤参考网址。

疑问：为什么安装Nvidia driver完之后，输入nvidia-smi也会出现Cuda的本版号信息（右上角）？

这是因为大约在发布Nvidia driver的410版本时，NVIDIA决定将CUDA driver API纳入到Nvidia driver的installer(安装程序)中，而不是再由CUDA toolkit installer进行安装。

要搞懂这里，还要说明的一个概念是，CUDA大致上有两套API，一套是用于runtime (比如libcudart.so， nvcc)，一套用于driver API (比如libcuda.so)，这两套API不一定是相同的版本号。而在Nvidia driver installer安装的仅仅是driver API。而runtime API则需用通过CUDA Toolkit来进行安装，即本文第二部分。（参考网址）

（本人在此困了很久，因为在nvidia-smi中显示cuda的版本与本人在第二步安装的版本不一致，所以一直以为安装cuda不成功，最后才发现CUDA的两套API机制。随后可通过将cuda的binary 路径包含到PATH中，nvidia-smi即可显示出CUDA的runtime API的版本号，详细请见下文。）

2. 安装Cuda 10.2

(本段可略过不看)：Cuda Toolkit可以通过两种方式安装，一种是distribution-specific packages (即类似与Debian packages), 另一种是distribution-independent package (即runfile packages)。而CUDA的安装需要承上启下，即若第一步用的是Debian的方式安装NVIDIA DRIVER，安装cuda可以直接通过debian，但若使用的是runfile安装，则需要卸载此前的nvidia driver安装。详情可看官方文档。

由于本文第一部分已经采用了Debian的方式（使用apt）进行了Nvidia driver的安装，因此CUDA也继续采用Debian方式进行安装。由于pytorch需要CUDA 10.2的支持（或CUDA 11.1，截止2020.05.13），因此可以在这里进行CUDA的deb文件的下载与安装：

输入以下命令进行安装：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu1804-11-3-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda

安装完成后，输入nvcc --version不显示所安装CUDA的版本号，需要添加以下路径到~/.bashrc ：

export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.2/bin:$PATH

3. 安装Pytorch：

在pytorch官网按照指示下载即可（注：不一定要用pip，根据各自习惯的系统作出选择即可）

本人采用virtualenv与pip进行安装：

首先安装virtualenv：

sudo apt-get install python3-dev
sudo pip install virtualenv

然后创建虚拟环境：

mkdir pytorch_workspace
cd pytorch_workspace
virtualenv py37venv --python=python3.7
source py37venv/bin/activate

然后安装pytorch：

pip3 install torch torchvision torchaudio

疑问：若安装的CUDA版本与Pytorch所支持的不同，会出现什么报错？

若安装的Cuda版本不是Pytorch所支持的，进行loss的时候会出现类似以下的报错

RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED ...

解决方法：首先卸载CUDA相关文件

sudo apt --purge remove "cublas*" "cuda*"
sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2

然后重复本文第二步（或相应的CUDA版本）即可。注，安装完成后需要重启，nvidia-smi才能正常显示。

欢迎转载，转载请注明出处：

https://zhuanlan.zhihu.com/p/372397379

与

https://blog.csdn.net/linyijiong/article/details/116818319

Bourne_Boom

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
最全：在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论

由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本，只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答，抛砖引玉，欢迎客官留下意见。0. 安装前为了后面顺利进行，确保系统不存在Nvidia Driver，Cuda相关文件。sudo apt-get purge nvidia*sudo apt-get autoremovesudo apt --purge re.
复制链接

扫一扫

专栏目录