gpu.52cv.net租用服务器指南(实录,无坑一次成功)
(基本思路:本机调试+环境匹配+Linux基础命令运行)
1.本机调试
1.1 本地pc成功运行train.py
我这次要训练的是yolov3(pytorch版本)数据集已经准备好,具体可参照pprp大佬写的训练教程
成功运行!
本机由于显卡显存只有2g,所以batch调到1才能运行,训练1轮要12小时左右!
1.2 压缩整个文件夹
经测试,压缩包上传比直接传文件夹快很多,所以我选择压缩上传再解压。
1.3 租用与本机环境匹配的gpu服务器
1.3.1 首先查看本机torch,torchvision环境
限制代码运行的主要环境是torch和torchvision,所以最好选择和本机可运行代码的环境一致的gpu服务器,当然你要是不嫌麻烦,也可以随便租一个上服务器再改。(ps:其实torch1.x的环境兼容性很好,不知道新出来的版本如何,反正我在1.1,1.2,1.3,1.4运行都没问题,所以匹配torch的环境就比较方便,限制不是那么多)
本机环境:
1.3.2 租用服务器
选择心仪的服务器,我需求不是很高,2080足矣。性价比不错。
选择镜像版本:
有1.4和1.2两种版本,我电脑用的1.1,这里就选一个比较老的1.2吧!
1.3.3 服务器环境检查
我习惯用xshell连接服务器,用xftp传文件。租用成功后会给你的注册邮箱发邮件,按照邮件提示即可接入服务器。
接着验证服务器pip list:
可以,版本很不错!
1.4 传文件到服务器
1.4.1 传文件
用xftp传文件
同样的方法用xftp连接服务器
文件夹验证,同时传文件,双击即可。
服务器验证文件目录
输入ls即可查看当前目录文件,可以看到,文件匹配。
1.4.2 解压文件
直接unrar x yolov3.rar(如果没有unrar可以sudo 安装unrar)
解压非常快,基本只需要一分钟,我有6万张图和6万标注文件,所以这速度还是非常可观的。
1.5 开始训练
首先cd yolov3,进入到文件夹中,python train.py (后面可以加参数,batchsize之类的)
即可训练成功!环境完全匹配!(有点可惜,2080是真的不行,batch只能设置到16,并且30分钟一轮,难受,后面我又退了租成了1080ti,还是1080ti香,浪费了一个多小时的钱)
接下来只要等待保存模型,通过xftp双击传回来需要的数据就行了。
完结撒花!