关于显卡
-
显卡切换:
deepin15.7之后,系统提供了显卡驱动管理器,方便用户自由选择显卡使用方案,如下图
我们在使用过程中,经常需要调用GPU,大黄蜂方案情况下,需要我们人工启动gpu或关闭
在进行训练前,在终端输入sudo tee /proc/acpi/bbswitch <<< ON
,可开启显卡。
在训练结束后,在终端输入sudo tee /proc/acpi/bbswitch <<< OFF
,可关闭显卡。
查看gpu信息:
-
cuda&cudnn安装
上一步解决了显卡驱动问题,现在就需要安装cuda以及cudnn,以便后面调用gpu环境。
(写在前面的废话:之前有试过从NVIDIA官网上下载cuda以及cudnn,然后手动安装,总是出现莫名其妙的问题,虽然网上也有帖子说明对应的情况,但是…经过多个回合后…qtmd!最优办法还是一条命令安装)-
安装cuda(默认安装源内最新的版本,目前9.1)
sudo apt install nvidia-cuda-dev nvidia-cuda-toolkit nvidia-nsight nvidia-visual-profiler
查看当前cuda版本
-
安装CUDNN和NCCL
CUDA安装很容易,但是apt安装的CUDA是分散在/usr
文件夹中各处的,而现在安装cudnn是需要指定CUDA的PATH,所以必须用软链接将CUDA的文件集合到一个文件夹内:-
文件夹软链接
sudo mkdir -p /usr/local/cuda /usr/local/cuda/extras/CUPTI /usr/local/cuda/nvvm sudo ln -s /usr/bin /usr/local/cuda/bin sudo ln -s /usr/include /usr/local/cuda/include sudo ln -s /usr/lib/x86_64-linux-gnu /usr/local/cuda/lib64 sudo ln -s /usr/local/cuda/lib64 /usr/local/cuda/lib sudo ln -s /usr/include /usr/local/cuda/extras/CUPTI/include sudo ln -s /usr/lib/x86_64-linux-gnu /usr/local/cuda/extras/CUPTI/lib64 sudo ln -s /usr/lib/nvidia-cuda-toolkit/libdevice /usr/local/cuda/nvvm/libdevice
以上指令,将CUDA的文件集合到了
/usr/local/cuda
文件夹内 -
正式安装cudnn
前往下载cuDNN,我下载的是7.1.3版本,记得下载for CUDA 9.1
下载完之后解压,终端切换到解压出的文件夹中,依次输入以下命令将cuDNN安装到CUDA的安装目录:sudo cp include/* /usr/local/cuda/include/ sudo cp lib64/libcudnn.so.7.1.3 lib64/libcudnn_static.a /usr/local/cuda/lib64/ cd /usr/lib/x86_64-linux-gnu sudo ln -s libcudnn.so.7.1.3 libcudnn.so.7 sudo ln -s libcudnn.so.7 libcudnn.so
注意:其中涉及版本号信息,请具体操作时,对应自己文件夹内文件确认
-
安装NCCL
接下来安装NCCL,从这里下载。我用的是NCCL 2.1.15 for CUDA 9.1,下载NCCL 2.1.15 O/S agnostic and CUDA 9。同样,下载后解压,终端切换到解压出的文件夹,依次输入以下命令:sudo mkdir -p /usr/local/cuda/nccl/lib /usr/local/cuda/nccl/include sudo cp *.txt /usr/local/cuda/nccl sudo cp include/*.h /usr/include/ sudo cp lib/libnccl.so.2.1.15 lib/libnccl_static.a /usr/lib/x86_64-linux-gnu/ sudo ln -s /usr/include/nccl.h /usr/local/cuda/nccl/include/nccl.h cd /usr/lib/x86_64-linux-gnu sudo ln -s libnccl.so.2.1.15 libnccl.so.2 sudo ln -s libnccl.so.2 libnccl.so for i in libnccl*; do sudo ln -s /usr/lib/x86_64-linux-gnu/$i /usr/local/cuda/nccl/lib/$i; done
注意:其中涉及版本号信息,请具体操作时,对应自己文件夹内文件确认
-
-
测试能否正常调用GPU
接触深度学习多年,真心觉着tensorflow不是很友好,实际应用起来很很费劲,在此安利pytorch
可以看见GPU正常使用
参考链接:Deepin 安装tensorflow gpu亲测教程(适用于双显卡)参数说明(此图借用)
-
关于常用系统监控指令
- htop(后台进程监控)
安装方法sudo apt install htop
- sensors(cpu温度监控)
安装j方法sudo apt-get install lm-sensors hddtemp sudo sensors-detect sensors
- 存储监控
free -h