这几天公司部署项目需要在新的服务器上使用cuda训练模型,本来以为很简单pytorch一装,docker一配置接口就结束了,结果测试torch.cuda.is_available()=False.再通过Nvidia-smi和nvcc -V查看驱动的cuda都是有安装的,而且torch和nvcc -V的cuda版本都是一致的。
我安装的是cuda10.1.通过cuda官网发现10.1支持内核4.4,而公司新的服务器是4.15.。。。。坑爹啊,还要降内核
百度了一下ubuntu降低内核版本,过程还是挺简单的,成功降到内核4.4之后以为已经稳了,这剩下的坐等torch.cuda.is_available()=True.结果依旧False,查看Nvidia-smi之后发现驱动没有了。。。。可能是降了内核导致驱动不能用吧。切换到4.15内核发现有驱动,果断卸载装入能兼容4.4的驱动,结果安装时驱动提示缺少kernel source和kernel devel,执行命令
apt-get install linux-source
apt-get install linux-image-$(uname -r)
apt-get install linux-headers-$(uname -r)
之后发现显卡驱动安装上了,torch.cuda.is_available()也是True了