从安装cudnn拓展开的故事。。。

最开始在室友的建议下, 采用cudnn来加速caffe的运算速度,然而莫名其妙的发现,主机gpu1上的GPU使用率始终保持在90%以上,因此尝试自行修复,结果悲剧了,一次重启之后发现/usr/bin目录下找不到nvidia-smi命令,然后就没法查看GPU状态了......

开始以为是驱动的问题,于是把cuda重装,发现没解决,一咬牙把整个nvidia驱动都重装了,为了把之前的nvidia驱动都卸载干净,这里使用的方法是:sudo apt-get remove --purge nvidia-*
其中purge参数是把安装包和所有配置文件都删除干净。但需要注意的是,有个nvidia-common包不能删除,网上给出的解决办法是nvidia-common和ubuntu-desktop依赖,因此
sudo apt-get install ubuntu-desktop即可,但事实证明这样并不能解决,反而直接使用
sudo apt-get install nvidia-common就奏效了。
再然后就是
sudo apt-get install nvidia-352
安装好版本号为352的nvidia驱动之后,才很无语的发现,nvidia-smi 居然还是不存在!

不得不说中文资料参考价值还是没那么高,最后在nvidia官方论坛上找了好久才发现,nvidia-smi是隶属于名为GPU deployment kit的一系列nvidia套件中的一个,去官网下载到对应版本的run文件,执行安装之后,/usr/bin目录下终于出现了nvidia-smi。

另外说一点,如gpu deployment kit的下载版本中,linux里就有
这两种,仔细观察下载文件后发现,这个区别类似于下载cuda时,让你选择的x86_64和ppc64le,这个可以通过uname -m命令查看本系统的版本,实验室用的是x86_64。



11月23日更新
终于发现问题所在,只要用sudo update-alternatives --config x86_64-linux-gnu_gl_conf,把状态从默认调整到nvidia的那一栏,就能用nvidia-smi了。上面的操作 都是无用功,蛋疼。。。

12月4日更新
另外,安装好cudnn后,在caffe的make runtest时可能会报类似于:check failure 6 vs 0   SUCCESS== 类似于这样的错误,这可能是因为,当前显卡不支持cudnn的这种加速效率,显卡或者cuda驱动太落后,cudnn版本太先进导致的,解决办法是,用古老一点的cudnn版本。。。

12月9日更新
在安装某些开源改版的caffe时,可能会要用cmake来编译caffe,而用cmake的过程中,可能会出现
.../cudnn/lib64 Targets may link only to libraries.   CMake is dropping the item
这种错误往往是因为,在cmake参数中只是简单地指定了cudnn的库目录,但有些文件需要具体的.so文件,而不是目录。解决方法是(在ubuntu系统下),把cudnn的所有.so文件放入/usr/local/lib中,把cudnn的include中的cudnn.h文件,放入/usr/local/include中,再用cmake编译,就不会跳过那些文件了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值