Caffe使用多GPU——Ubuntu16.04+CUDA9+CUDNN6配置NCCL

最新推荐文章于 2024-02-16 23:25:06 发布

BlueClean

最新推荐文章于 2024-02-16 23:25:06 发布

阅读量1k

点赞数 2

分类专栏：环境配置 Deep Learning 文章标签： NCCL Caffe多GPU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blueclean/article/details/84069091

版权

环境配置同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1. 下载nccl

$ git clone https://github.com/NVIDIA/nccl.git

2. build

$ cd nccl

$ make -j src.build

注意：如果你的CUDA不是安装在常规的路径/usr/local/cuda,需要指定CUDA的路径

make -j src.build应改为：

$ make -j src.build CUDA_HOME=/usr/local/cuda-9.0 (此为小编cuda路径)

$ make -j src.build NVCC_GENCODE="-gencode=arch=compute_70,code=sm_70" (可选)

3. Install

安装在debian和Ubuntu上:

$ # Install tools to create debian packages

$ sudo apt install build-essential devscripts debhelper

$ # Build NCCL deb package

$ make pkg.debian.build

$ ls build/pkg/deb/

4. 测试是否安装成功

$ git clone https://github.com/NVIDIA/nccl-tests.git

$ cd nccl-tests

$ make

$ ./build/all_reduce_perf -b 8 -e 256M -f 2 -g <ngpus>

<ngpus>为你的gpu个数，不报错则安装成功。

5. 错误记录

报错:找不到-lnccl的错误

/usr/bin/ld: cannot find -lnccl

collect2: error: ld returned 1 exit status

解决办法:

$ sudo gedit /etc/ld.so.config

在末尾加入 INCLUDE /home/cv503/nccl/build/include

$ sudo ldconfig

然后再:

$ sudo gedit ~/.bashrc

加入nccl的头文件和库

export LD_LIBRART_PATH=/home/cv503/nccl/build/lib:$LD_LIBRART_PATH

LD_LIBRART_PATH测试的时候还是报错的的话直接改为LIBRART_PATH

export LIBRART_PATH=/home/cv503/nccl/build/lib:$LIBRART_PATH

6. 配置caffe的多GPU

由于之前编译的无多GPU,首先在Caffe的根目录下:

$ make clean

修改makefile文件
修改makefile.config文件加入以下语句：

USE_NCCL := 1
INCLUDE_DIRS += /home/cv503/nccl/build/include
LIBRARY_DIRS += /home/cv503/nccl/build/lib

3. 最重要的步骤——修改caffe根目录下的cmake下的Moduels下的FindNCCL.cmake文件

在相应位置加入红色语句:

set(NCCL_INC_PATHS

/usr/include

/usr/local/include

/home/cv503/nccl/build/include

$ENV{NCCL_DIR}/include

)

set(NCCL_LIB_PATHS

/lib

/lib64

/usr/lib

/usr/lib64

/usr/local/lib

/usr/local/lib64

/home/cv503/nccl/build/lib

$ENV{NCCL_DIR}/lib

)

4. 修改Cmakelists.txt文件

caffe_option(USE_NCCL "Build Caffe with NCCL library support" OFF)

OFF改为ON

5. rebuild CAFFE

在CAFFE的根目录下

$ mkdir build

$ cd build

$ sudo cmake .. -DCUDA_NVCC_FLAGS=”-D_FORCE_INLINES” -DUSE_CUDNN=ON -DUSE_NCCL=ON

没有报错则进行下一个命令:

$ sudo make -j4

将python写入环境变量

$ gedit ~/.bashrc

export PYTHON_PATH=

$ python

$ import caffe

不报错就成功.

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Caffe使用多GPU——Ubuntu16.04+CUDA9+CUDNN6配置NCCL

1. 下载nccl$ git clone https://github.com/NVIDIA/nccl.git2. build$ cd nccl$ make -j src.build注意：如果你的CUDA不是安装在常规的路径/usr/local/cuda,需要指定CUDA的路径make -j src.build应改为：$ make -j src.build CUDA_H...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。