GPU共享调度器扩展器使用指南

最新推荐文章于 2024-08-28 10:41:05 发布

刘通双Elsie

最新推荐文章于 2024-08-28 10:41:05 发布

阅读量833

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00809/article/details/141049372

版权

GPU共享调度器扩展器使用指南

gpushare-scheduler-extender项目地址:https://gitcode.com/gh_mirrors/gp/gpushare-scheduler-extender

项目介绍

GPU共享调度器扩展器（GPU Sharing Scheduler Extender）是一个为Kubernetes集群设计的开源项目，旨在提高Nvidia GPU的利用率。通过允许在同一Nvidia GPU设备上部署多个共享GPU的Pod，该项目解决了如何在Pod之间共享GPU的问题。它基于调度器扩展器和设备插件机制，使得在Kubernetes环境中复用这一解决方案变得容易。

项目快速启动

前提条件

Kubernetes 1.11+
Golang 1.19+
NVIDIA驱动版本 >= 361.93
Nvidia-docker版本 > 2.0
Docker配置为使用Nvidia作为默认运行时

安装步骤

克隆项目仓库

git clone https://github.com/AliyunContainerService/gpushare-scheduler-extender.git
cd gpushare-scheduler-extender

构建镜像
```
make build-image
```

部署设备插件

git clone https://github.com/AliyunContainerService/gpushare-device-plugin.git
cd gpushare-device-plugin
docker build -t cheyang/gpushare-device-plugin .

安装Kubectl扩展

mkdir -p $GOPATH/src/github.com/AliyunContainerService
cd $GOPATH/src/github.com/AliyunContainerService
git clone https://github.com/AliyunContainerService/gpushare-device-plugin.git
cd gpushare-device-plugin
go build -o $GOPATH/bin/kubectl-inspect-gpushare-v2 cmd/inspect/*