拿到全新的GPU云服务器之后，如何部署环境以训练模型

最新推荐文章于 2024-05-18 18:17:38 发布

Mocode

最新推荐文章于 2024-05-18 18:17:38 发布

阅读量736

点赞数

文章标签： python

本文链接：https://blog.csdn.net/Mocode/article/details/127612123

版权

如果将模型放在colab上面，可以不需要另外部署环境，直接将模型和数据集放到google硬盘并让colab搭载google硬盘，之后即可开始训练。

但是对于一台全新的、没有环境配置的服务器，需要我们自己部署环境以训练模型。

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.05-Linux-x86_64.sh

最后一个“/”后面是anaconda安装包的版本，可以替换成别的安装包。查询要下载的安装包的版本的页面：https://repo.anaconda.com/archive/

bash Anaconda3-2022.05-Linux-x86_64.sh

注意安装包的路径位置和版本。在执行这条命令时，当前路径正好有这个安装包

conda -V

注意：V是大写。

这条命令可以在任何路径下执行，如果有显示conda的版本，则说明anaconda已经安装成功。

由于anaconda并不是把所有python第三方库都在安装完成时配置好，所以有一些库模型需要但目前环境中没有，要额外安装。自己在做模型的实验的时候就发现这些库需要额外安装。

有些库不能用conda命令安装的，就试下用pip命令去安装。

conda install scipy
pip install sklearn //用conda命令安装会失败
pip install torchsummary //用conda命令安装会失败

然后就可以开始训练模型了。来到模型py文件所在的路径，运行文件即可（数据集配置等其他涉及到具体问题的，具体另外解决）。

python XXX.py

我一般习惯使用tee命令，将模型训练的每一行输出同时记录到一个txt文件里面。

python XXX.py | tee record.txt

一行输出同时记录到一个txt文件里面。

python XXX.py | tee record.txt

将模型训练的每一行输出同时记录到一个record.txt文件里面。