创建GPU云服务器
本文使用GCP的机器,GPU选择T4,费用大概$0.4/h按秒计费,比国内GPU云便宜很多。如果你用的国内机器需要对conda和pip换源,不然会很慢。
选择服务器配置
配置信息如图:
由于GCP的CPU、内存、GPU都可以在关机状态下随意修改,所以这里只选择满足初装条件的配置,后续可以根据不同任务自行配置相关资源。
我这里系统映像选择的是Ubuntu18.04 LTS(注意不是带Minimal的!),不同版本的系统相关软件安装会有很大区别,所以一定要注意系统版本。硬盘尽量大一点。
登录服务器
创建成功后会给一个临时外部IP,这里我没有把临时IP转成静态。因为,GPU服务器费用很高,我们平时不用的时候要把服务器停掉,而静态IP在服务器停止状态会收占用费。GCP的动态IP除非长时间不用(大概一个月?),否则基本不会变。
点击页面的SSH会弹出一个窗口登录服务器
安装显卡驱动
添加依赖并更新系统
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.1.243-1_amd64.deb
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
sudo dpkg -i cuda-repo-ubuntu1804_10.1.243-1_amd64.deb
sudo apt-get update
wget http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
sudo apt install ./nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
sudo apt-get update
安装驱动
不限于T4,其他Nvidia显卡应该也能通过这条命令安装驱动
sudo apt-get install --no-install-recommends nvidia-driver-430
重启服务器测试驱动
使用命令nvidia-smi测试GPU驱动
sudo reboot
nvidia-smi
驱动正常显示如下:
这里右上角的CUDA Version: 10.2指的是该版显卡驱动最高支持的CUDA版本,要确保这里的版本号不低于你需要的CUDA版本,否则你需要升级显卡驱动。
安装Anaconda
下载安装包
到Anaconda官网下载64位Linux安装脚本
wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh
chmod +x Anaconda3-2020.02-Linux-x86_64.sh