系统配置是ubuntu16.04+RTX2080+显卡驱动415+anaconda3
cuda和cudnn是conda安装的清华源上的cudatoolkit8+cudnn7
(conda install tensorflow-gpu==1.6 时自动安装了依赖包包括了cudatoolkit和cudnn,不能选)
问题:运行tensorflow一个简单的卷积函数tf.nn.conv2d时程序卡死,直接结束进程,系统卡死
报错:(Process finished with exit code 134 (interrupted by signal 6: SIGABRT))
明显是环境配置问题,挣扎了俩天,得出以下结论。
显卡决定了显卡驱动版本,显卡驱动一定程度上决定cuda版本,cudnn对应cuda版本下载,cuda和cudnn版本决定了tensorflow版本。
1、rtx2080的linux系统下只支持415、410、418版本,可以去官网查,sudo ubuntu-drivers devices
方法也好使,sudo apt-get install nvidia-415
安装驱动的方法比官网下载安装更方便(除了下载慢),安装好后重启。
2、重新安装显卡驱动前先把原来的驱动卸干净了再装新的sudo apt remove --purge nvidia*
。先把原来的cuda卸载干净了再装cuda,sudo /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl
3、不要用anaconda直接安装的tensorflow-gpu,流氓打包安装的cud