GPU加入k8s集群时,初始化显卡容器错误“**Error error validating toolkit installation: exec: \“nvidia-smi\“:executable

问题现象:

GPU加入k8s集群时,初始化显卡容器错误"Error error validating toolkit installation: exec: “nvidia-smi”:executable file not found in $PATH toolkiy is not ready

查看pod状态:
kubectl get pods -n gpu-operator-resources

NAME READY STATUS RESTARTS AGE
nvidia-dcgm-x5rqs 0/1 Init:0/1 2 6d20h
nvidia-device-plugin-daemonset-jhjhb 0/1 Init:0/1 0 6d20h
gpu-feature-discovery-pd4xv 0/1 Init:0/1 2 6d20h
nvidia-dcgm-exporter-7mjgt 0/1 Init:0/1 2 6d20h
nvidia-operator-validator-9xjmv 0/1 Init:Error 10 26m

kubectl logs -n gpu-operator-resources -f nvidia-operator-validator-9xjmv -c toolkit-validation
time=“2021-11-18T09:29:24Z” level=info msg=“Error: error validating toolkit installation: exec: “nvidia-smi”: executable file not found in $PATH” toolkit is not ready

基本环境相关:

Ubuntu 20.04
Kubernetes 1.21.6
CUDA 11.4

解决方法:

按照nvidia-docker 安装方法,设置docker的默认运行时,
在daemon.json文件中添加如下内容
vim /etc/docker/daemon.json
{
“default-runtime”: “nvidia”
“runtimes”: {
“nvidia”: {
“path”: “/usr/bin/nvidia-container-runtime”,
“runtimeArgs”: []
}
}
}
#重启docker服务即可生效
systemctl restart docker

等待一段时间,查看pod状态是否恢复。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值