cuda必须装在c盘吗_深度学习基础环境搭建-Nvidia驱动+cuda+cudnn

本文详细介绍了如何在Ubuntu16.04上安装Nvidia驱动、CUDA10.1和cuDNN7.6.4,包括卸载旧驱动、禁止ubantu自带驱动、安装驱动、安装CUDA和cuDNN的步骤,以及验证安装成功的技巧。特别强调驱动、CUDA和cuDNN版本的对应关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Ubantu16.04+GPU(1070ti)驱动+cuda10.2 +CUDNN7.6.4

一、 安装nvidia显卡驱动

(亲测搭建深度学习环境,无论是win还是ubantu上的cuda里都有相对应的驱动,网上大多数教程均说单独装好驱动后在cuda,如果有那个折腾的精力可以试一试直接装cuda的时候装驱动(理论是可行的))
1、nvidia官网下载驱动

在官网里手动搜索驱动程序里,选择自己对于的系统,注意是“Linux 64-bit”。其他选项默认即可。然后,点击开始搜索,将会自动搜索你的电脑相匹配的 GPU 显卡驱动,搜索结果如下图所示:

e9aa74f67beaed36fdc652617aaae4ee.png

如上图所示,结果会显示可用的 GPU 显卡驱动程序,确定你需要的版本,直接点击就可以下载了。例如我选择的版本是440.31(图是后补的哈,通常下最新的驱动即可,兼容性较好),下载后的文件是 NVIDIA-Linux-x86_64-440.31.run。

2、打开终端 Terminal,首先卸载系统之前安装的 NVIDIA 显卡驱动,尤其以前安装失败的情况下。(没有安装的可以忽略这一步)

sudo apt-get --purge remove nvidia-*

3、禁用ubantu自带驱动nouveau及其他显示驱动,非常重要打开 blacklist:

sudo gedit /etc/modprobe.d/blacklist.conf

在最后添加几行,千万注意把这些都加上,网上大多数只有一条语句 blacklist nouveau,本人亲测这样不行,估计其余显卡驱动的存在同cuda相矛盾,故安装一直失败。一定加上下述几条。

blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv

添加后如图:

dcad98d6ac57cacba14fe53210018858.png

这时候在终端输入:

lsmod | grep nouveau

如果没有输出如下图,可以直接进行下一步,安装驱动。

2043e257b002d86522331317adee0bf9.png

如果仍有输出,参考网上资源说则在终端输入:(未遇见过仅有参考)

sudo gedit /etc/modprobe.d/blacklist.conf

直接写入:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

保存关闭,再在终端输入下面的命令验证是否没有输出了。

 sudo update-initramfs -u
 lsmod | grep nouveau

# 如果这样还有输出,reboot一次(重启)

4 、在正式安装驱动之前,请记住刚刚驱动的 .run 文件的下载路径和完整的文件名(通常在Downloads下)。按 Ctrl+Alt+F1 进入命令行界面,输入下面的命令:

sudo /etc/init.d/lightdm stop
sudo init 3

进入 .run 文件的下载路径,使用 chmod 命令增加 .run 文件的运行权限。

chmod a+x NVIDIA-Linux-x86_64-440.31.run
sudo ./NVIDIA-Linux-x86_64-418.43.run -no-x-check -no-nouveau-check -no-opengl-files
#这里是关闭x server,nouveau和不下载opengl文件  

然后就会开始安装程序,安装完成之后,输入下面的命令:

nvidia-smi

如果出现与下面类似的结果图,恭喜你驱动安装成功(如果没有,不要灰心,多装几次重头再来,好好检查。win上安装比较容易,一路next即可,注意显卡硬件对应打版本就是了)。

5673da3fb0dc4cdc742987c9f3fa42a2.png

最后,回到图像界面。(之间是关闭了桌面显示,命令行形式的,所以上图是之后截的)

$ sudo /etc/init.d/lightdm start

这样,驱动就算正式安装成功了。

二、安装 CUDA10.1

1、首先,登录 CUDA 的下载网站,由于现在 CUDA 的版本已经更新到 10 .2了,我当时下的最新打是10.1。选择自己打系统型号,如下图,因此,点击 Legacy Releases,进入之前的版本列表。

c4eeb8987e6d59c5b7baa6e931c68484.png

然后,在 CUDA 版本列表中,选择 10.1 版本。

abf802d7cb56b745ba5e13de2a3043d0.png

选择对应的系统等信息,就可以点击 Download 进行下载了。注意选择下载 runfile 文件。

3b33011cd435626b4ffe49661805aa82.png

2、打开终端,进入 CUDA10.1 的下载目录,输入:

chmod a+x cuda_10.1.243_418.87.00_linux.run
sudo ./cuda_10.1.243_418.87.00_linux.run

然后就会进入安装。在安装过程中会询问你一些配置信息,一般直接选择默认选项就行。有一个必须注意的地方是会让你选择是否安装 Graphics Driver for Linux-x86_64:XXXX 版本,这个地方必须选择 no!否则会覆盖之前的驱动。(就是刚刚说的在安装cuda会带有驱动,禁用哟!!!)

3、安装完毕之后,声明环境变量。打开 .bashrc 文件,在终端输入:

sudo gedit ~/.bashrc

在文件最后加上:

export PATH=/usr/local/cuda-10.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

8e45d06552795bbebb7b0cc6a2f44aa2.png

保存退出,并更新一下

source ~/.bashrc

4、验证 GPU 驱动版本:440.31

cat /proc/driver/nvidia/version

9d8e7f04060b96a853aeb3323c334f39.png

验证 CUDA 版本:10.1

nvcc -V

5b202bbf5f605fa962616aaf6277c747.png

测试CUDA的Samples例子只测了一个,代码和结果如下

cd  /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

a074bb9c125dabaddfd520870758e7b7.png

5、可能遇到的问题是没有安装 gcc 或者 gcc 版本过高需要手动进行降级,都比较好解决(没有遇到过,如果有遇到过可以贴上)

三、安装 cuDNN

1、首先,进入 cuDNN 的下载网站。值得一提的是,下载之前是需要先注册账号。在下图所示的版本列表中,选择适配 CUDA10.1 的,此时有多个了,当时选打最的,要选对应的是 Linux 系统。如图

cd75f0d4b054e27f0866f789b64c360c.png

2、下载完毕之后,解压:

$ tar -zxvf cudnn-10.1-linux-x64-v7.6.4.38.tgz

解压命令输出如下:

cuda/include/cudnn.h
cuda/NVIDIA_SLA_cuDNN_Support.txt
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.7
cuda/lib64/libcudnn.so.7.6.4
cuda/lib64/libcudnn_static.a

拷贝相关文件至指定目录:(和win中搭建一样拷贝到cuda对应打文件中)

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/

3、切换到本地 cuda 路径,创建软连接,终端输入:

cd /usr/local/cuda/lib64
sudo chmod +r libcudnn.so.7.6.4
sudo ln -sf libcudnn.so.7.6.4 libcudnn.so.7  
sudo ln -sf libcudnn.so.7 libcudnn.so  
sudo ldconfig

注意,这里的文件名即版本号就参照之前解压出来的文件名对照着写。

4、到本地 cuda 路径下检测一下:

cd /usr/local/cuda/lib64
ll

出现 cuDNN 对应的版本号就证明安装成功!

5343e7588377346ee4138855d9491c00.png

官网还有对应的例子代码,下来后在编译(个人觉得只需要cudnn的版本和cuda的对应基本没有必要了)

恭喜最后 GPU 显卡驱动 + CUDA10.1 + cuDNN7.6.4 环境配置完成。

可以开始进入深度学习的大坑了!

四、总结

首次搭的童鞋,尤其是以前没有接触过,会怀疑人生的,我以及记不清打了多少次,依稀记得第一次搭建的时候错误百出,一直说记录哈,今天终于走出第一步了,方便自己以后回顾,也方便他人!千万注意显卡驱动+cuda+cudnn版本对应!!!

五、参看资料:

https://blog.csdn.net/weixin_41864878/article/details/79621210

https://zhuanlan.zhihu.com/p/77874628

<think>好的,用户想了解如何搭建深度学习环境,包括软件和硬件配置。首先,我需要整理一下搭建环境的主要步骤和需要考虑的方面。硬件方面,GPU是关键,NVIDIA的显卡因为有CUDA支持,所以是首选。用户可能需要知道具体型号推荐,比如RTX 3090或A100这些。然后是CPU和内存,深度学习虽然主要用GPU,但CPU也不能太差,内存方面根据引用[3],显存和内存的配比1:4是个参考,比如24GB显存配96GB内存。存储方面,SSD加速数据读取也很重要。 软件部分,操作系统通常选Ubuntu,因为对深度学习框架支持好。接着是安装NVIDIA驱动CUDAcuDNN,这些是GPU加速的基础深度学习框架比如PyTorch或TensorFlow,用户可能需要指导如何用conda或pip安装环境管理工具如Anaconda,能帮助管理不同的项目环境。还有开发工具比如Jupyter Notebook、VS Code,这些在引用[2]里提到过,需要包括进去。 然后要考虑具体步骤,比如先安装Ubuntu,再驱动,然后CUDAcuDNN,接着用conda创建环境安装框架。可能还需要提到常用的库,比如数据处理用的NumPy、Pandas,可视化用的Matplotlib。 用户可能遇到的问题比如驱动兼容性,CUDA版本与框架的匹配,这些需要提醒注意。另外,引用[3]提到内存配置要根据应用调整,可能需要解释不同任务的需求差异。例如,入门和Kaggle比赛可能不需要顶级硬件,但大规模训练则需要更好的配置。 最后,生成关问题时要覆盖硬件选择、环境管理、框架比较、验证安装的方法,以及云服务的优缺点。这样用户能进一步探索自己需要的部分。</think>### 深度学习环境搭建指南 #### 一、硬件配置要求 1. **GPU**(核心组件) - 推荐NVIDIA显卡(支持CUDA加速),例如RTX 3090/4090、A100/A6000[^3] - 显存建议:入门级(12GB+)、研究级(24GB+) 2. **CPU与内存** - CPU建议至少8核(如Intel i7/i9或AMD Ryzen 7/9) - 内存配比参考:显存容量 ×4(如24GB显存配96GB内存)[^3] 3. **存储** - 系统:NVMe SSD(1TB+- 数据:HDD/SSD阵列(根据数据集规模) #### 二、软件环境搭建流程 1. **操作系统安装** - Ubuntu 20.04/22.04 LTS(推荐对深度学习框架兼容性最佳)[^1] 2. **NVIDIA驱动CUDA** ```bash # 安装驱动 sudo apt install nvidia-driver-535 # 安装CUDA 12.x wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-get install cuda ``` 3. **cuDNN深度学习框架** - 通过NVIDIA官网下载匹配CUDA版本cuDNN - 使用conda安装PyTorch/TensorFlow: ```bash conda create -n dl python=3.9 conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia ``` 4. **开发工具集成** - Jupyter Notebook:交互式代码调试[^2] - VS Code:安装Python/Pylance扩展 - Docker:容器化环境部署 #### 三、环境验证 运行以下测试代码验证GPU是否可用: ```python import torch print(f"CUDA可用: {torch.cuda.is_available()}") print(f"GPU数量: {torch.cuda.device_count()}") print(f"当前GPU: {torch.cuda.get_device_name(0)}") ``` #### 四、进阶配置建议 - 分布式训练:配置NCCL库 - 数据预处理:安装OpenCV/DALI - 监控工具:使用nvtop监控GPU状态
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值