笔者想要根据空闲显存信息,动态分配tensorflow中session运行的GPU。搜索下来没有发现成熟的方案,备选方案记录如下:
方案一:
翻译自:How to get current available GPUs in tensorflow?
使用tensorflow的后端函数device_lib.list_local_devices()
。
缺点1:会尝试并占用所有可用GPU显存,需要设置GPUOptions进行预防。
缺点2:未记入文档的后端函数不够稳定,可能存在位置bug。
方案二:
翻译自:How to list visible Tensorflow devices without allocation?
代码参看:https://gist.github.com/f0k/63a664160d016a491b2cbea15913d549
CUDA的driver相关API:http://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__DEVICE.html
其思想为使用ctypes包装c代码,运行cuda.h中函数获取GPU相关信息,详情可以参看样例代码。
缺点1:限制于libcuda.so中的函数
缺点2:笔者需要获取的显存相关信息,并不能够正确获取。参考cuMemGetInfo() and size_t limitation中的解答,猜测是受限于size_t,不能获取大显存的信息。
方案三:
使用GPUtil,该库通过解析nvidia-smi获取相关信息,样例代码详见首页README.md。
缺点1:受限于nvidia-smi信息量。
缺点2:个人维护,鲁棒性稳定性令人担忧。