NVIDIA GPU Operator简易说明

作用

如果想要在Kubernetes中发现GPU,需要安装驱动、部署device plugin等一系列操作,使用GPU Operator可以大大简化nvidia gpu服务器纳管难度Operator集成驱动device plugincuda监控一整功能用户无需手动进行逐步安装甚至驱动都不需要提前安装

安装前提条件

官方部署手册

1、kubernetes已经部署完成,并有helm

2所有服务器操作系统型号相同如果型号不同需要节点上提前手动安装驱动,或者采用Driver CRD的方式对节点单独设置驱动型号,驱动版本推荐见GPU Operator Component Matrix

3、所有节点容器运行时采用CRI-O或者containerd(在kubernetes 1.21.3测试docker运行时也可以)

4如果kubernetes开启Pod Security Admission (PSA)需要Operator权限

5、个人经验是推荐使用较高版本操作系统比如Ubuntu 20.04部署过程比Ubuntu18.04更加快捷,应该使用22.04更好。

安装完成后的检查

查看gpu-operator命名空间所有pod里面包含驱动device plugin如果pod没启动成功请查看event一般情况因为镜像拉取失败导致可以手动更改镜像地址

GPU共享

目前支持Time SlicingMIG方案,MPS方案目前可以单独试用部署,相信很快会集成到Operator中。

下图是Time Slicing配置前后节点信息变化配置4时间分片节点显示8可用GPU

配置

配置

如果大家关注MLOps相关的技术,欢迎大家点赞收藏关注👏👏👏

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值