阅读书籍为《Hands-On Machine Learning with Scikit-Learn & TensorFlow》王静源等翻译的中文译版《机器学习实战,基于 Scikit-Learn 和 TensorFlow》,本文中所有图片均来自于书籍相关部分截图。
上一章作者带我们讨论了如何优化网络本身来提升训练速度。但是当数据量过于庞大,问题过于复杂时,再好的网络也会变成让人难以忍受的慢。那么这一章作者将从增加设备的角度来分散过于集中的数据量和计算量以达到降低训练任务完成的时间。之前我们学过的TF支持分布式计算的特点在这章也会得到详细的讲解。
文章目录
一台机器上扩展多个GPU
就好一个电脑的内存不够为他扩展内存一样,扩展出来的GPU可以非常有效降低大型任务的处理时间。
一般来说在一台机器上使用多个GPU优于在多台机器上使用16个GPU,因为设备间数据传输有延迟。
下面介绍如何配置设备使TF发挥作用:
1.安装
2.管理GPU RAM
3.在设备上操作
4.并行执行
扩展多台机器
一般来说想要跨多台机器前我们需要定义一个集群(由TF任务组成),然后将任务部署到不同的机器上,如下:
下面介绍如何配置设备使TF发挥作用: