深度学习-深度学习集群管理方案

本文探讨了深度学习集群管理的新趋势,包括Training与Serving的分离,多样化数据处理,以及GPU资源的重要性。文章列举了基于Kubernetes和Hadoop Yarn的解决方案,如Kubeflow、XLearning以及OpenPAI,并强调了硬件优化和容器化的角色。
摘要由CSDN通过智能技术生成

 

相比之前如火如荼的大数据作业和负载以及集群硬件情况。深度学习平台的作业和硬件环境有了一些新的不同和趋势:
 

作业:

  • 相比大数据作业,工作流workflow相比之前的大数据workflow来看相对简化,而将复杂DAG计算图推到了单独的深度模型中。
  • Training 和 Serving的需求逐步分离。训练过程类似之前大数据批处理作业。深度学习集群更多的解决训练问题。serving相比Training需要考虑更多的naming问题,有可能不是在一个集群内完成。
  • 处理的数据更加多样化,图像,语音,文本等数据。相比之前大数据作业更多以日志分析为大需求。
  • 大多数训练作业不定是分布式作业,数据加工过程可利用大数据框架的分布式作业完成

硬件:

  • GPU逐步超越CPU称为优先级最高的资源。使得Job性能优化相比大数据考虑的因素有了一些变化。
  • 采用更多的新硬件:FPGA, RDMA等
  • 硬件成本更高
  • 大环境更倾向采用容器化方案进行资源隔离

目前下面列出的为用户可以自行安装和部署的可用的一些方案,关于公有云商提供的方案暂时没有列出。

 

1 基于Kubernetes的方案

1.1 Kubernetes原生方案

https://kubernetes.io/docs/tasks/manage-gpus/scheduling-gpus/

1.2 基于Kubernets方案

kubeflow

htt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值