拿到全新的GPU云服务器之后,如何部署环境以训练模型
如果将模型放在colab上面,可以不需要另外部署环境,直接将模型和数据集放到google硬盘并让colab搭载google硬盘,之后即可开始训练。
但是对于一台全新的、没有环境配置的服务器,需要我们自己部署环境以训练模型。
文章目录
一、安装Anaconda
1.1 下载安装包
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.05-Linux-x86_64.sh
最后一个“/”后面是anaconda安装包的版本,可以替换成别的安装包。查询要下载的安装包的版本的页面:https://repo.anaconda.com/archive/
1.2 开始下载
bash Anaconda3-2022.05-Linux-x86_64.sh
注意安装包的路径位置和版本。在执行这条命令时,当前路径正好有这个安装包
1.3 检验是否安装成功
conda -V
注意:V是大写。
这条命令可以在任何路径下执行,如果有显示conda的版本,则说明anaconda已经安装成功。
二、根据模型需要安装额外的python第三方库
由于anaconda并不是把所有python第三方库都在安装完成时配置好,所以有一些库模型需要但目前环境中没有,要额外安装。自己在做模型的实验的时候就发现这些库需要额外安装。
有些库不能用conda命令安装的,就试下用pip命令去安装。
conda install scipy
pip install sklearn //用conda命令安装会失败
pip install torchsummary //用conda命令安装会失败
三、开始训练模型
然后就可以开始训练模型了。来到模型py文件所在的路径,运行文件即可(数据集配置等其他涉及到具体问题的,具体另外解决)。
python XXX.py
我一般习惯使用tee命令,将模型训练的每一行输出同时记录到一个txt文件里面。
python XXX.py | tee record.txt
一行输出同时记录到一个txt文件里面。
python XXX.py | tee record.txt
将模型训练的每一行输出同时记录到一个record.txt文件里面。