《TensorFlow技术解析与实战》第17章 TensorFlow和Kubernetes结合

本文详述了为何在大规模深度学习中需要Kubernetes进行集群管理,以及如何在Kubernetes上部署和运行分布式TensorFlow。通过实例展示了使用Minikube创建Kubernetes集群,配置并运行TensorFlow的参数服务器和工作节点,以及模型训练的过程。此外,还讨论了将模型打包制作成环境独立镜像的好处。
摘要由CSDN通过智能技术生成

在AlphaGo中,每个实验使用1 000个节点,每个节点有4个GPU,也就是使用了4 000个GPU。在Siri中,每个实验2个节点,也就是使用了8个GPU。可想而知,AI研究的进行依赖于海量数据的计算,同时也离不开高性能计算资源的支持。

在第14章中我们已经讲解了TensorFlow的分布式原理以及部署方式。随着海量数据的出现和模型参数的增多,我们必然需要更大的集群来运行模型,这样最大的好处在于把原本可能需要周级别的训练时间缩短到天级别甚至小时级别。未来的模型训练面对的都是上亿数据和上亿参数,稳定的计算能力和管理便捷的集群环境至关重要。Kubernetes是目前应用最广泛的容器集群管理工具之一,它可以为对分布式TensorFlow的监控、调度等生命周期管理提供所需的保障。

有过大数据集群开发经验的人都知道,尽管TensorFlow有自己的分布式方案,但仍需要手动把每台机器运行起来,当机器量是几台或十几台的时候,可能压力不大,但当机器量达到上千台时,就需要一样东西来进行管理和调度,进行自动化部署、调度、扩容和缩容处理,甚至当一些任务意外退出后,还需要控制自动重启。Kubernetes就提供了这样的解决方案。

Kubernetes官方

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人民邮电出版社有限公司

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值