如何在kubernetes中使用共享GPU资源

virtaitech

于 2021-07-27 16:48:36 发布

阅读量1.7k

点赞数

文章标签： ai gpu 人工智能 kubernetes

本文链接：https://blog.csdn.net/m0_49711991/article/details/119147395

版权

本文介绍了如何在Kubernetes中使用物理GPU资源，以及通过OrionX实现GPU算力的共享和池化管理。Kubernetes 1.8以后支持NVIDIA GPU设备插件，但GPU资源不能超配或共享。OrionX提供插件与Kubernetes集成，允许更灵活的GPU调度和资源利用，实现降本增效。

摘要由CSDN通过智能技术生成

背景

Kubernetes如何使用物理GPU

Kubernetes如何使用共享GPU算力

背景

作为推动人工智能技术进步的“三驾马车”，算法、数据和计算力在过去的5-10年间不断创新。在算法方面，人类在机器学习的算法上实现了突破，特别是在视觉和语音技术方面的成就尤为突出。在数据方面，移动互联网时代的到来使数据量迎来了爆炸式增长。人工智能算法模型经过长期发展，目前已覆盖多个研究子领域。随着大数据技术的不断提升，人工智能赖以学习的标记数据获得成本下降，同时对数据的处理速度大幅提升。宽带的效率提升。物联网和电信技术的持续迭代为人工智能技术的发展提供了基础设施。2020年，接入物联网的设备将增加至500亿台。代表电信发展里程的5G的发展将为人工智能的发展提供最快1000Mbps的信息传输速度。在计算力上，得益于芯片处理能力提升、硬件价格下降的并行使得计算力大幅提升。截至目前，全球人工智能的计算力主要是以GPU芯片为主。但随着技术的不断迭代，如ASIC、FPGA在内的计算单元类别将成为支撑人工智能技术发展的底层技术。

在以容器为应用运行载体的Kubernetes平台上，运行AI训练和推理任务，已经成为AI厂商以及AI应用在企业落地的热点和首选。我们已经看到Kubernetes在人工智能、机器学习这一新型应用场景下得到快速应用的趋势。Kubernetes已经成为云原生时代编排框架的事实标准，各种资源、任务都可以使用Kubernetes进行编排和管理，当然也包括机器学习任务。基于Kubernetes，大量开发者和公司已经提供了众多开源或商业的工具（包括：Argo、Katib、KubeFlow、RiseML等），通过这些工具，AI公司可以进一步提升机器学习任务在Kubernetes上运行的效率，增强使用Kubernetes进行机器学习的能力。同时容器和Serverless将使机器学习模型作为独立的功能提供服务，从而以更低的开销运行AI应用。