![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
工具链
阿磊的小站
这个作者很懒,什么都没留下…
展开
-
Horovod之分布式训练的使用(tensorflow),注意事项以及加速优化
文章目录Horovod原理Horovod 安装Tensorflow例子1. Session(不使用hooks)2. MonitoredTrainingSession版本(使用hooks)运行注意事项注意事项总结分布式训练总结参考资料最近由于工作需要,重新研究了下horovod。Horovod原理详细可看原论文总结:Horovod 使用ring-all-reduce分布式计算方式运行过...原创 2020-04-13 15:23:18 · 2866 阅读 · 0 评论 -
深度学习推荐工具链
文章目录推荐工具链1.编辑器idePycharmsublime textAtom2.服务器工具xshell, xftp3.深度学习训练框架4.其他参考资料推荐工具链1.编辑器idePycharm本地编辑,远程服务器同步,远程调试。Pycharm配置远程调试sublime text本地代码编辑AtomMarkdown编辑器2.服务器工具xshell, xftp使用ssh连接远...原创 2019-08-29 15:46:38 · 438 阅读 · 0 评论 -
深度学习训练速度的提高的一些浅见(1)gpu,cpu,硬盘等硬件
文章目录背景可能的瓶颈本身训练代码(软件)可能的问题服务器(硬件)的问题硬件可能的问题CPUCPU的主要问题解决方案GPUGPU的主要问题硬盘io硬盘io的主要问题内存内存的主要问题解决方法总结本文着重于硬件方面的问题,代码方面的问题后续会讨论。背景多人使用一台服务器,常常会发生由于某个任务占用某个计算资源(cpu,gpu,内存,硬盘io等)过多,而导致其他任务由于该计算资源过少而训练速度过...原创 2019-08-29 16:52:40 · 4834 阅读 · 0 评论