tkestack/gpu-manager在k8s1.23版本之后的使用

最新推荐文章于 2024-03-14 10:50:32 发布

JosephThatwho

最新推荐文章于 2024-03-14 10:50:32 发布

阅读量1.2k

点赞数 1

文章标签： kubernetes gpu-manager

本文链接：https://blog.csdn.net/JosephThatwho/article/details/130389997

版权

在k8s 1.25版本集群部署gpu-manager时遇到资源申领问题，尽管pod显示running，但实际无法分配GPU资源。通过检查节点详情和pod日志发现，gpu-manager与容器运行时接口通信超时，原因是1.23版本后接口路径变更。解决方案是更新源码中的接口路径并重新编译镜像，解决依赖问题后，新镜像在1.25版本k8s中正常工作。

摘要由CSDN通过智能技术生成

异常

在1.25版本的k8s集群中部署gpu-manage时，虽然显示gpu节点上gpu-manage的pod实例都是running状态，但是给pod申领tencent.com/vcuda-memory资源时，却始终找不到有资源的节点。
查看节点的详情时，返回的allocatable字段中也没有相关资源:

Allocatable:
  cpu:                       48
  ephemeral-storage:         48294789041
  hugepages-1Gi:             0
  hugepages-2Mi:             0
  memory:                    65291520Ki
  pods:                      110
System Info:
  Machine ID:                 50ca20960ea94552bd5ef84a20ce7e47

说明gpu-manager并没有正确运行。

排查

查看任意gpu-manager的pod日志，可以看到如下异常信息：

rebuild ldcache
launch gpu manager
E0426 06:1

最低0.47元/天解锁文章

JosephThatwho

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
tkestack/gpu-manager在k8s1.23版本之后的使用

在1.25版本的k8s集群中部署gpu-manage时，虽然显示gpu节点上gpu-manage的pod实例都是running状态，但是给pod申领。既可以用源码的Makefile自动编译打包成新的镜像，但是源码的。说明gpu-manager和容器运行时接口通信失败了。编译后的镜像在1.25版本的k8s中可以正常使用。，但是在k8s1.23版本之后，接口路径已经改为。资源时，却始终找不到有资源的节点。，另外有一些依赖需要国际上的支持。可以看到这里用的运行时接口是。查看节点的详情时，返回的。
复制链接

扫一扫