在实际的docker k8s应用中是否你也存在着以下问题,究竟别人是如何做的。在弹性的计算能力需求场景中,在大并发量集群机器管理中,我们如何有效的利用我们的集群能力。由国内一线云服务器厂商华为云带来的开源大数据分布式集群批处理系统Volcano 能不能解决我们面临的机器集群问题?
在实际的场景中我们存在一些企业拥有自有服务器机房,显卡集群等等。我们如何让这些计算资源变得高效是一个必须要去思考的问题。如何稳定,高效的支撑企业场景中的服务器。docker 2020年是存在这一些改进的,但是目前为止仍然缺少一个标准化的组织向我们深度交接这些。例如2019年docker 发布了一个不再需要安装nvidia docker即可驱动底层显卡能力的新版本。所以这种高速成长的信息科学技术就成为了一种需要大量工作量更新的技术。为了减少企业在云服务器运营场景的投入,Volcano应运而生。当我们面临瓶颈的时候,我们需要扩宽我们眼界,我们需要更加全面的了解我们的系统优化的方向。
以下内容来源于Volcano开源工作
https://gitee.com/mirrors/Volcano
欢迎大家 star fork 下载源码感受来自华为云AI容器的开源工作Volacano。
Volcano 是基于 Kubernetes 的批处理系统,源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎,高性能异构芯片管理,高性能任务运行管理等能力。
Volcano 提供一整套目前 K8S 在批量和弹性工作负载处理中缺失的机制,包括:
机器学习/深度学习
生物信息学/基因组学
其他“大数据”应用
这些类型的应用程序通常运行在Volcano集成的Tensorflow,Spark,PyTorch,MPI等通用域框架上。
Volcano为Kubernetes添加的机制和功能的一些例子:
作业管理的扩展和改进,如:
Multi-pod 作业
生命周期管理扩展,包括挂起、恢复和重启
提升错误处理
作业的索引
任务依赖
调度扩展
联合调度
公平调度
队列调度
抢先和收回
预订和回填
基于拓扑逻辑的调度
运行时扩展
支持Singularity等专用容器运行时,具有GPU加速器扩展和增强的安全功能
其他
数据局部感知和智能调度
优化数据吞吐量,往返延迟等
Volcano建立在使用多个系统和平台大规模运行各种高性能工作负载的十五年经验之上,并结合了开源社区的最佳创意和实践。
以上内容来源于Volcano开源工作。如有侵权即刻删除
https://gitee.com/mirrors/Volcano
希望掌握更多关于Volcano 的信息欢迎在2020年12月19日来到参加Volcano 线下CloudNative云原生AI大数据专场交流会议。
【云原生AI大数据】Meetup报名通道已开启
想在K8s上轻松玩转AI、大数据等高性能计算业务吗❓
想知道 CNCF首个批量计算平台Volcano的架构设计秘诀和落地实践吗❓
想知道云原生在AI大数据场景的技术演进和发展趋势吗❓
……
12 月19日来自华为云、腾讯、中科类脑和华宇的️ 位技术大咖与大家面对面,一起深度探讨‼️ 中国信息通信研究院科研所二层工业互联网餐厅。
转发下方海报,还有机会获得神秘礼品
快扫码报名吧
欢迎报名线下技术交流会议,