这次安装主要使用conda,可以有更好的安装体验。关于框架,常用的tensorflow,pytorch,但是国产的paddle也做的越来越好,而且学习资源有很多,我们应该抛开框架本身,更多关注算法。再说,paddle和pytorch很个似,确实需要某一个固定的框架,我觉的可以转写一下。多么希望paddle安装的多gpu支持也能像pytorch或tensorflow一样,pip或conda安装完成后直接就支持多gpu,不需要再安装什么nccl,已给paddle git上提issue,未来的某一天也许会解决。
1、安装paddle
按照正常官网来操作即可,
conda install paddlepaddle-gpu==2.3.2 cudatoolkit=10.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
conda install -c nvidia cuda-nvcc_linux-64
注意,cuda-nvcc_linux-64并不是必须的,可以不安装。
有时候 -c nvidia这个channel下的软件包都是不能下载的,
有时好一点的还报个错或提示信息这个包的版本和路径:
但一直卡着,没有有进度最后直接报错:
这种还好,提供了文件的跑径,那三个包,我们下载下来就安装好了。
对于这个包,我们可以离线安装,打开网址https://conda.anaconda.org/nvidia/linux-64/,找到这个包:
找个对应版本安装即可,比如我安装11.7,按照conda 图片中提供的也行。
cuda-nvcc_linux-64-11.7.0-0.tar.bz2,cudaruntime也是11.7.0,
进行安装:
conda install --use-local cuda-nvcc_linux-64-11.7.0-0.tar.bz2
缺依赖或文件不完整,或版本不对,都按照提示,安装即可,再比如安装pytorch2.0时,所有-c nvidia都下载不下来
2、安装nccl
安装nccl可以使框架实现单机多卡的多gpu使用。
我的另一篇文章有写,在服务器上,无网络安装的情况下,离线从源码安装nccl。这里写点在conda 环境中安装nccl方法。
conda install nccl -c conda-forge
conda安装还要注意版本问题:
conda install -c conda-forge nccl=2.7.8 # cuda10.2
conda install -c conda-forge nccl=2.10.3 # cuda11.7,cuda11.3
有时候通过conda安装并不能使用,请通过链接,从源码安装。
还要注意版本问题:
conda install -c conda-forge nccl=2.7.8 # cuda10.2
conda install -c conda-forge nccl=2.10.3 # cuda11.7,cuda11.3
conda install -c conda-forge nccl=2.11.4 # cuda12.0
3、验证
输入验证命令:
import paddle
paddle.utils.run_check()
正确安装,大概就是如下显示
4、总结
一定能用的就是安装paddle,然后源码安装nccl,其它安装只是为了使用conda。