tensorflow-gpu训练gpu占用率、利用率都很低

1问题描述

最近用bert训练模型时,发现GPU资源占用很小,小到连bert模型都装不下,然后cpu几乎占满在这里插入图片描述
排除了代码问题,数据传输问题,排除了资源选择问题,懵逼了。。。一时也不知道咋回事,之前还没有遇到过。

2.问题发现

无意间发现了日志报告的一段

Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are install

之前因为程序能跑,就忽略了警告。。。我真是个憨批。
发现是cuda版本和tensorflow-gpu版本不兼容,应该是之前同事把cuda版本改掉了。。。
我安装的tensorflow-gpu是1.15.3,对应的cuda版本应该是10.0。
在这里插入图片描述
对应版本号查找链接

3.解决

看了网上了方法,说可以通过conda安装cudatoolkit=10.0来解决。
但是。。。并不能安装上。
在usr/local下发现有多个版本的cuda,虽然安装了10.1,但是10.0还在,暂时只能通过修改环境变量来解决了

cd ~ 
vim .bashrc
# 找到cuda的path,把10.1全部修改为10.0
# 使配置生效
source .bashrc

解决~

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值