这次安装主要使用conda,可以有更好的安装体验。关于框架,常用的tensorflow,pytorch,但是国产的paddle也做的越来越好,而且学习资源有很多,我们应该抛开框架本身,更多关注算法。再说,paddle和pytorch很个似,确实需要某一个固定的框架,我觉的可以转写一下。多么希望paddle安装的多gpu支持也能像pytorch或tensorflow一样,pip或conda安装完成后直接就支持多gpu,不需要再安装什么nccl,已给paddle git上提issue,未来的某一天也许会解决。
更新
2024.7.18更新
paddlepaddle推出3.0beta,安装方法有点像pytorch了,一个命令全部搞定:
conda install paddlepaddle-gpu==3.0.0b1 paddlepaddle-cuda=11.8 -c paddle -c nvidia
#看看torch的
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
但好像paddlepaddle-gpu这个包卡着不动了,无语
cuda,cudnn,nccl都可以自动安装,这是好事,准确说这才是人干的事。
卡着不用,换用pip安装。
和pytorch的安装非常像,好用。
1、安装paddle
按照正常官网来操作即可,
conda install paddlepaddle-gpu==2.3.2 cudatoolkit=10.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
conda install -c nvidia cuda-nvcc_linux-64
注意,cuda-nvcc_linux-64并不是必须的,可以不安装。
有时候 -c nvidia这个channel下的软件包都是不能下载的,
有时好一点的还报个错或提示信息这个包的版本和路径:
但一直卡着,没有有进度最后直接报错:
这种还好,提供了文件的跑径,那三个包,我们下载下来就安装好了。
对于这个包,我们可以离线安装,打开网址https://conda.anaconda.org/nvidia/linux-64/,找到这个包:
找个对应版本安装即可,比如我安装11.7,按照conda 图片中提供的也行。
cuda-nvcc_linux-64-11.7.0-0.tar.bz2,cudaruntime也是11.7.0,
进行安装:
conda install --use-local cuda-nvcc_linux-64-11.7.0-0.tar.bz2
缺依赖或文件不完整,或版本不对,都按照提示,安装即可,再比如安装pytorch2.0时,所有-c nvidia都下载不下来
2、安装nccl
安装nccl可以使框架实现单机多卡的多gpu使用。
我的另一篇文章有写,在服务器上,无网络安装的情况下,离线从源码安装nccl。这里写点在conda 环境中安装nccl方法。
conda install nccl -c conda-forge
conda安装还要注意版本问题:
conda install -c conda-forge nccl=2.7.8 # cuda10.2
conda install -c conda-forge nccl=2.10.3 # cuda11.7,cuda11.3
有时候通过conda安装并不能使用,请通过链接,从源码安装。
还要注意版本问题:
conda install -c conda-forge nccl=2.7.8 # cuda10.2
conda install -c conda-forge nccl=2.10.3 # cuda11.7,cuda11.3
conda install -c conda-forge nccl=2.11.4 # cuda12.0
3、验证
输入验证命令:
import paddle
paddle.utils.run_check()
正确安装,大概就是如下显示
4、总结
一定能用的就是安装paddle,然后源码安装nccl,其它安装只是为了使用conda。