分布式
懒骨头707
这个作者很懒,什么都没留下…
展开
-
分布式Tensorflow中同步梯度更新tf.train.SyncReplicasOptimizer解读(backup_worker的用法)
在tensorflow的训练中,分布式可以大大的加快模型训练速度,但是分布式怎么分配和参数设定,都和SyncReplicasOptimizer这个函数有很大关系。 操作系统:Ubuntu16.04 运行环境:python3.6,nvidia384(4块),tensorflow-gpu1.10+cuda+cudnn(根据自己实际gpu配置) ...原创 2018-12-14 15:56:02 · 5045 阅读 · 4 评论 -
分布式tensorflow测试代码
数据集:minist (我走的是本地读取)数据集链接:https://pan.baidu.com/s/1o2faz60YLaba3q7hn_JWqg 提取码:yv3y 代码和数据集放在一个文件下目的:测试服务器是否安装成功cuda和cudnn环境:ubuntu16.04,python3.6,tensorflow-gpu1.10,cuda9.0,cudnn7.4...原创 2018-12-14 19:38:22 · 722 阅读 · 0 评论 -
分布式深度学习环境配置,NVIDIA驱动+cuda+cudnn+docker
假设设备中已经安装了python3.61.安装NVIDIA驱动 在Ubuntu的操作系统上,输入ubuntu-drivers devices 查看推荐驱动我的推荐是NVIDIA384,然后输入sudo ubuntu-drivers autoinstall按推荐安装。之后输入nvidia-smi弹出gpu信息即代表安装成功二,安装cuda...原创 2018-12-14 19:40:09 · 1399 阅读 · 1 评论 -
报错:tensorflow.python.framework.errors_impl.UnknownError: Could not start gRPC server
如题:tensorflow.python.framework.errors_impl.UnknownError: Could not start gRPC server环境:Ubuntu16.4,tensorflow-gpu1.10原因:分布式tensorflow中的ps或者worker进程为杀死解决方案:ps -aux|grep python然后杀死和分布式有关的进程:...原创 2018-12-14 19:44:54 · 7345 阅读 · 14 评论 -
分布式深度学习框架--百度paddlepaddle的环境搭建以及测试代码
一、搭建环境 分布式paddle的环境和tensorflow的环境很相似,在我之前的博客中已经写得非常清楚了 我的是 python3.6+cuda9+cudnn7+ubuntu16.04 博客链接:https://blog.csdn.net/qq_28626909/article/details/85007363 搭建好环境知道我们开始安装p...原创 2019-01-15 17:48:26 · 3239 阅读 · 20 评论