异常
在1.25版本的k8s集群中部署gpu-manage时,虽然显示gpu节点上gpu-manage的pod实例都是running状态,但是给pod申领tencent.com/vcuda-memory
资源时,却始终找不到有资源的节点。
查看节点的详情时,返回的allocatable
字段中也没有相关资源:
Allocatable:
cpu: 48
ephemeral-storage: 48294789041
hugepages-1Gi: 0
hugepages-2Mi: 0
memory: 65291520Ki
pods: 110
System Info:
Machine ID: 50ca20960ea94552bd5ef84a20ce7e47
说明gpu-manager
并没有正确运行。
排查
查看任意gpu-manager的pod日志,可以看到如下异常信息:
rebuild ldcache
launch gpu manager
E0426 06:1