【读书笔记】【机器学习实战】第十二章:【本周暂停更新,此章将在所有章节更新完结后更新】

阅读书籍为《Hands-On Machine Learning with Scikit-Learn & TensorFlow》王静源等翻译的中文译版《机器学习实战,基于 Scikit-Learn 和 TensorFlow》,本文中所有图片均来自于书籍相关部分截图。

上一章作者带我们讨论了如何优化网络本身来提升训练速度。但是当数据量过于庞大,问题过于复杂时,再好的网络也会变成让人难以忍受的慢。那么这一章作者将从增加设备的角度来分散过于集中的数据量和计算量以达到降低训练任务完成的时间。之前我们学过的TF支持分布式计算的特点在这章也会得到详细的讲解。

一台机器上扩展多个GPU

就好一个电脑的内存不够为他扩展内存一样,扩展出来的GPU可以非常有效降低大型任务的处理时间。
一般来说在一台机器上使用多个GPU优于在多台机器上使用16个GPU,因为设备间数据传输有延迟。

下面介绍如何配置设备使TF发挥作用:

1.安装

2.管理GPU RAM

3.在设备上操作

4.并行执行

扩展多台机器

一般来说想要跨多台机器前我们需要定义一个集群(由TF任务组成),然后将任务部署到不同的机器上,如下:
在这里插入图片描述
下面介绍如何配置设备使TF发挥作用:

1.开启一个会话

2.分配跨任务操作

3.用资源容器跨会话共享状态

4.使用TF队列进行异步通信

5.在设备上操作

在TensorFlow集群上并行化神经网络

1.一台设备一个神经网络

2.开启一个会话

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页