背景:
我司使用的是阿里的gpushare进行的gpu共享,在调度pod时发现明明存在显存且显卡能够正常识别 但是在做调度时仍然会出现此异常。
解决方案:
在yaml的env种指定NVIDIA_VISIBLE_DEVICES: all, 如下:
.....
containers:
-name: xxx
image: http://xxxx:xx
resources:
limit:
aliyun.com/gpu-mem: 1
env:
- name: NVIDIA_VISIBLE_DEVICES
value: all