1问题描述
最近用bert训练模型时,发现GPU资源占用很小,小到连bert模型都装不下,然后cpu几乎占满
排除了代码问题,数据传输问题,排除了资源选择问题,懵逼了。。。一时也不知道咋回事,之前还没有遇到过。
2.问题发现
无意间发现了日志报告的一段
Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are install
之前因为程序能跑,就忽略了警告。。。我真是个憨批。
发现是cuda版本和tensorflow-gpu版本不兼容,应该是之前同事把cuda版本改掉了。。。
我安装的tensorflow-gpu是1.15.3,对应的cuda版本应该是10.0。
对应版本号查找链接
3.解决
看了网上了方法,说可以通过conda安装cudatoolkit=10.0来解决。
但是。。。并不能安装上。
在usr/local下发现有多个版本的cuda,虽然安装了10.1,但是10.0还在,暂时只能通过修改环境变量来解决了
cd ~
vim .bashrc
# 找到cuda的path,把10.1全部修改为10.0
# 使配置生效
source .bashrc
解决~