租用GPU服务器
在算力市场选择服务器,选择所要跑的代码对应版本的pytorch或tensorflow环境和版本。
由于我们现在还没有配置好,先关机,再选择无卡模式开机,比较便宜。
上传数据集
数据一般要放在数据盘,也就是autodl-tmp文件夹下。
AuToDL官方文档给的传输方式是用XShell和Xftp7(都是教育免费的),但下载好后发现其原理就是 SSH+SFPT,用FlashFXP或其他文件传输软件也可以(尽量用SFPT,Linux默认不支持FPT,需要额外安装服务)。因为官网有XShell的教程,我就只贴FlashFXP
如果文件太大,可将其分割,上传后合并(如果不分割可能面多次临传输失败并需全部重传的风险)。但需注意:合并时,分割文件和总文件同时存在,占用2倍空间。以下分别是分割和合并命令。注意split是Linux命令,在windows下使用应下载GetGnuWin32(已经很老了,维护较少)MSYS2(需搭配MingGW)、 Cygwin,以使用split。
#分割命令
split -b 500m CVPR2016.rar log_
#合并命令
cat log_* > CVPR2016.rar
#检测MD5
#Windows(尽管装了但没有md5sum)
certutil -hashfile filename MD5
#Linux
md5sum filename
#解压(e解压到当前文件夹;x解压到指定路径下)
unrar e sourcefile destPath
#ps:unrar下载:
apt-get update
apt-get install rar unrar
传输失败的案例,原因是没有传到数据盘,系统盘满了。而且恢复后文件依然错误。
搭建运行环境
用VScode配置SSH即可在本机编辑程序并运行。
AuToDL已经帮我们搭建了miniconda和pytorch环境。我们需要注意的是尽量包版本与原程序一致。否则会发生很多冲突。
conda init bash
#重启bash
重开一个bash(init有提示,必须重开),列出现有环境,进入base
conda env list
conda activate base
配置开发所需环境

python
#进入python
import torch
torch.__version__
import torchvision
torchvision.__version__
下载用到的包
如果源代码提供了requirements.txt.
#制作
pip freeze > requirements.txt
#使用
conda install --yes --file requirements.txt
如果源代码提供了requirements.yml
#制作
conda env export > requirements.yml
#使用
conda env create -f requirements.yml
train和test
看看作者有没有提供demo.pth.tar,这是保存的训练好的模型,可以直接测试。虽然它以tar结尾,但是不能解压,会被torch直接load。