今天在服务器3上跑了下tensorflow的模型, 一直报错Failed to create session.
通常这种情况是显存不够,但是服务器3上两块1080Ti,第一块占满了,第二块空的,因此不应该没有显存.
把第二块显卡'1'设置为可见
import os
os.environ['CUDA_VISIBLE_DEVICES'] ='0,1'
依旧报错
把显卡都设置为不可见
os.environ['CUDA_VISIBLE_DEVICES'] =''
可以用CPU跑,证明代码没问题
想了各种办法,考虑了cuda和cudann还有toolkit的版本兼容性之类的,应该都没问题
灵光一现,把占满了的0设置成不可见
os.environ['CUDA_VISIBLE_DEVICES'] ='1'
解决了, 第二块显卡成功占满,爽