多显卡服务器,显存明明够用,却报错 Failed to create session.

今天在服务器3上跑了下tensorflow的模型, 一直报错Failed to create session.

通常这种情况是显存不够,但是服务器3上两块1080Ti,第一块占满了,第二块空的,因此不应该没有显存.

把第二块显卡'1'设置为可见

import os 
os.environ['CUDA_VISIBLE_DEVICES'] ='0,1'

依旧报错

把显卡都设置为不可见

os.environ['CUDA_VISIBLE_DEVICES'] =''

可以用CPU跑,证明代码没问题

想了各种办法,考虑了cuda和cudann还有toolkit的版本兼容性之类的,应该都没问题

灵光一现,把占满了的0设置成不可见

os.environ['CUDA_VISIBLE_DEVICES'] ='1'

解决了, 第二块显卡成功占满,爽

遇到"failed to send gpu control.createcommandbuffer"这样的Python GPU错误通常是因为TensorFlow与显卡驱动之间存在兼容性问题或者是显存不足或驱动程序设置不当。这里有一些建议来尝试解决问题: 1. **更新或重新安装TensorFlow**: 如果你试图通过pip安装的是特定版本的TensorFlow并且出现了问题,试着卸载当前版本并清理缓存,然后使用管理员权限(`sudo`)重新安装,如[^1]所示: ```shell pip2 uninstall tensorflow-gpu pip2 install tensorflow-gpu --upgrade ``` 2. **检查显卡驱动**[^2]: - 检查是否有新的驱动程序可用,有时过时的驱动可能导致问题。访问NVIDIA或其他GPU制造商的官方网站下载最新的驱动。 - 卸载并重新安装驱动程序,按照[How to Recover from a Bad GPU Driver Update](https://www.howtogeek.com/341071/how-to-recover-from-a-bad-gpu-driver-update/)中的步骤操作。 3. **调整CUDA/CuDNN版本**: 有时候,TensorFlow可能需要特定版本的CUDA和cuDNN。确保它们与你的TensorFlow版本相匹配。 4. **检查内存资源**: - 确保有足的物理内存供GPU使用,特别是如果你的模型非常大。可以尝试降低虚拟内存限制或关闭其他占用大量内存的应用。 5. **显卡配置检查**: - 使用nvidia-smi工具查看GPU状态,确认一切正常,比如温度、利用率等。 如果以上步骤都无法解决问题,可能需要进一步排查系统层面的冲突或联系硬件供应商的技术支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值