前言
本文主要介绍远程深度学习训练环境的搭建。其中服务器端为ubuntu20.04+anaconda+pytorch,客户端为win10+vscode,通过ssh进行远程连接。
服务端配置
安装ubuntu20.04
不详细介绍,可参见其他安装教程。
安装nvidia驱动
首先,确保系统中的软件包为最新。
sudo apt update
sudo apt upgrade
然后,查看显卡和可用驱动程序信息。
ubuntu-drivers devices
我的结果图下。
这里选择安装 nvidia-driver-455 - distro non-free recommended,运行如下命令。
sudo apt install nvidia-driver-455
之后重启系统。
sudo reboot
重启后,验证是否安装成功。
nvidia-smi
这里应该能够看到如下信息。
发现cuda版本为11.1。
安装anaconda
从 清华镜像站下载合适版本的anaconda,进行安装。下载到的是*.sh文件,使用bash命令运行即可。
bash *.sh
注意:在安装anaconda之前不建议安装python和pip,直接使用conda自带的。
安装完成后,重启一下,在命令行中进入python,查看一下anaconda的python版本。
安装pytorch
根据之前步骤的python版本和cuda版本,从pytoch官网安装pytorch,建议使用wget命令获得pip的*.whl文件,之后后pip离线安装,因为这个pip是conda自带的,因此也能够安装到conda库中。
到现在为止,本地训练环境已经有了,下面处理远程的问题。
配置ssh
运行如下命令,在安装ssh服务端。
sudo apt-get install openssh openssh-server
连接一下localhost,生成.ssh目录。
ssh localhost
客户端
配置ssh
win10自带ssh,使用powershell直接可以使用,为了后续使用方便,我们配置免密登录。
之后在C:\Users\yourname.ssh中添加文件config,其中写入。
Host yourname
HostName yourip
User yourname
Port 22
这个操作是个服务器ip地址起了别名。
然后生成密钥。
ssh-keygen
这时C:/Users/yourname/.ssh/中会有id_rsa和id_rsa.pub两个文件,我们只要吧id_rsa.pub中的公钥添加到服务器中~/.ssh/authorized_keys文件中即可。
此时,使用如下命令即可登录。
ssh yourname
安装vscode
从官网下来安装即可。
配置vscode插件
安装Remote Development插件。借助于这个插件就可以愉快的使用vscode远程炼丹啦。
最后结果如下。
另外,如果在vscode中使用vim插件,则可以基本抛弃鼠标编程,体验更好。