tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2

最新推荐文章于 2024-05-16 22:41:13 发布

Raintin_coder

最新推荐文章于 2024-05-16 22:41:13 发布

阅读量1w

点赞数 1

文章标签： python tensorflow mirroredstrategy

本文链接：https://blog.csdn.net/qq_29592167/article/details/83866840

版权

tensroflow为了提高多模型训练速度，需要多个GPU同时工作，而且我们一般使用的工作站都是8块tesla K80，如果能将8块显卡的计算力充分利用起来，将会大大提高模型训练的速度，缩短模型训练时间。

这几天看到tensorflow的morroredstrategy特别好用，就想试试，所以写了代码，想看看多个GPU的效能怎么样，就仿照github上tensorflow的一些例子写了一些教程，但是出现了一个错误：

tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory。

根据报错的内容，我们知道，缺少一个文件，libnccl*** 类似的东西，看到nccl立马想到是nvidia的东西，经过查找资料发现，这个东西应该放在cuda文件夹下，在出现需要多个GPU同时工作时来调用的，如果cuda对应的lib64文件下没有找到该文件，就需要下载一下，默认的cuda并不直接安装该功能的，但是如果已经有cuda的情况下，只需要将对应的文件复制进cuda文件夹下的lib64 这个库里。

首先，下载目标文件，nvdia官网下载，如果没有注册nvidia developer就注册一个账号，也没啥损失，邮箱就可以。

可以找自己cuda对应的版本进行下载，因为我是cuda9.2，所以操作如下图所示

下载第一个压缩包就好，解压后得到两个文件夹include 和 lib，如图：

将include文件夹下的文件都复制到cuda文件夹下对应的inlcude中去，

sudo cp include/* /usr/local/cuda-9.2/include
sudo cp lib/* /usr/local/cuda-9.2/lib64

这个要根据自己的位置而定，我是在include文件夹外面一级的目录里，同时也要看自己的cuda库装在哪，版本号是多少。需要删除原有文件，然后重新生成libnccl.so 和 libnccl.so.2这两个文件.

cd /usr/local/cuda-9.2/lib64
sudo rm libnccl.so libnccl.so.2
sudo ln -s libnccl.so.2.3.5 libnccl.so.2
sudo ln -s libnccl.so.2 libnccl.so

对应的结果会变颜色

这说明已经ok了，就可以正常运行了。

核心代码是

distribution = tf.contrib.distribute.MirroredStrategy(num_gpus=1)
config = tf.estimator.RunConfig(train_distribute=distribution)

Raintin_coder

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
tensorflow1.12 多GPU协同训练报错tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2

tensroflow为了提高多模型训练速度，需要多个GPU同时工作，而且我们一般使用的工作站都是8块tesla K80，如果能将8块显卡的计算力充分利用起来，将会大大提高模型训练的速度，缩短模型训练时间。这几天看到tensorflow的morroredstrategy特别好用，就想试试，所以写了代码，想看看多个GPU的效能怎么样，就仿照github上tensorfl...
复制链接

扫一扫