首先先不要装cuda和cudnn,去百度飞桨官网看安装教程,他的cuda和cudnn绑定的很死,还有系统支持也一定要看一下。我从以下几步骤给大家走一遍流程吧,避免踩坑,我从配到跑起来用了四五天(哭哭)。之前一直以为是cuda和cudnn的问题,卸载安装了好几个了。最后发现是paddle版本不支持我的ubuntu 22.04系统。废话不说了,开整!
一、去paddle官网看你要安装的paddle飞桨版本所支持的系统和cuda、cudnn版本
百度飞桨官网
左上角的红色圈的是paddle的版本,右边是支持的系统、python、pip各种版本,大家一定要严格按要求来。比如我的系统是ubantu 22.04,但是最新版2.6现在仅支持到20.04,导致我的cuda和cudnn装好了,还是调用不了我的cuda,显示检测不到我的GPU,左上角的版本可以调,比如我的系统版本是ubuntu 22.04,最新版的不支持,我降一个版本到2.5,如下图
这样不就支持了,开整(后面还有个坑哈哈),咱们就先照着来,看cuda和cudnn版本的绑定
二、cuda和cudnn安装
参考官网cuda和cudnn的绑定,选一个即可,我先装的是cuda11.8和cudnn 8.6.0,具体教程参考别人的linux下cuda和cudnn安装配置教程,我就不赘述了
三、paddlegpu版本安装
这个是按照你安装的cuda版本进行安装,比如我的cuda版本为11.8,所以我就安装下图的gpu版本
pip下载
python3 -m pip install paddlepaddle-gpu==2.5.2 -i https://mirror.baidu.com/pypi/simple
跑深度学习嘛,conda大家都很熟悉吧,最好创一个虚拟环境,在里面进行管理各种包和依赖,在虚拟环境中执行上面命令,然后测试以下安装成功了没,下图是官网的验证方法
下图是顺利执行的,如果显示检测不到GPU,代表有问题(我之前一直报检测不到GPU,一直以为是cuda和cudnn问题,其实按我上面教程安装cuda和cudnn,没问题的,本质原因是因为我之前装的是2.6版本的飞桨,不支持ubuntu 22.04版本)。如果按我上面的来了,出问题概率几乎为零。
四、开跑模型
正常情况下模型就可以开跑了,如果缺对应的包的话,pip或者conda命令安装即可
五、接下来开始经验分享
我花了几天时间找到gpu检测不到的问题出现在哪里了(sx gpt,拿着之前检测不到gpu的报错信息问他,狂说我cuda和cudnn配置环境有问题,让我一直在这方面做无用功)。就卸载重装了paddle 2.5版本的,好的顺利检测到gpu了,跑的时候又出问题了
直观原因可能是显卡算力不够,他说的是他现在算力要求7.0以上,但我算力只有6.1,老卡1080ti,推测可能是paddle版本过高,但再低一个版本2.4不支持cuda 11.8,卸载装支持ubantu 22.04的最高版本cuda11.7(极限了,丫的,cuda版本再低就又不支持我的ubuntu 22.04了),之后装paddle 2.4,cuda 11.7和哪个cudnn版本绑定,参考上面的官网文档信息(多看官网,说不定就改啥东西了)。改之后成功点亮。这里分享一个卸载cuda和cudnn的网址吧linux卸载cuda、cudnn
介绍下我的服务器信息:
8 张1080ti 11g 显存
ubuntu 22.04
安装的是cuda 11.7 加cuDNN v8.4.1配上paddle2.4 版本的支持cuda11.7的gpu,paddlepaddle-gpu==2.4.2.post117。顺利跑起!!!