如何在AutoDL跑起一个深度学习模型_autodl系统盘满了-CSDN博客

本文链接：https://blog.csdn.net/a_vegetable/article/details/125136253

租用GPU服务器

在算力市场选择服务器，选择所要跑的代码对应版本的pytorch或tensorflow环境和版本。

由于我们现在还没有配置好，先关机，再选择无卡模式开机，比较便宜。

上传数据集

数据一般要放在数据盘，也就是autodl-tmp文件夹下。

AuToDL官方文档给的传输方式是用XShell和Xftp7（都是教育免费的），但下载好后发现其原理就是 SSH+SFPT，用FlashFXP或其他文件传输软件也可以（尽量用SFPT，Linux默认不支持FPT，需要额外安装服务）。因为官网有XShell的教程，我就只贴FlashFXP

如果文件太大，可将其分割，上传后合并(如果不分割可能面多次临传输失败并需全部重传的风险）。但需注意：合并时，分割文件和总文件同时存在，占用2倍空间。以下分别是分割和合并命令。注意split是Linux命令，在windows下使用应下载GetGnuWin32（已经很老了，维护较少）MSYS2（需搭配MingGW）、 Cygwin，以使用split。

#分割命令
split -b 500m CVPR2016.rar log_

#合并命令
cat log_* > CVPR2016.rar

#检测MD5
#Windows(尽管装了但没有md5sum）
certutil -hashfile filename MD5
#Linux
md5sum filename

#解压（e解压到当前文件夹；x解压到指定路径下）
unrar e sourcefile destPath

#ps：unrar下载：
apt-get update
apt-get install rar unrar

传输失败的案例，原因是没有传到数据盘，系统盘满了。而且恢复后文件依然错误。

搭建运行环境

用VScode配置SSH即可在本机编辑程序并运行。

AuToDL已经帮我们搭建了miniconda和pytorch环境。我们需要注意的是尽量包版本与原程序一致。否则会发生很多冲突。

conda init bash
#重启bash

重开一个bash（init有提示，必须重开），列出现有环境，进入base

conda env list
conda activate base

配置开发所需环境

pytorch/vision: Datasets, Transforms and Models specific to Computer Vision (github.com)

python
#进入python
import torch
torch.__version__
import torchvision
torchvision.__version__

下载用到的包

如果源代码提供了requirements.txt.

#制作
pip freeze > requirements.txt

#使用
conda install --yes --file requirements.txt

如果源代码提供了requirements.yml

#制作
conda env export > requirements.yml

#使用
conda env create -f requirements.yml

train和test

看看作者有没有提供demo.pth.tar，这是保存的训练好的模型，可以直接测试。虽然它以tar结尾，但是不能解压，会被torch直接load。