背景
首先声明这篇文章不是广告,阿里云打钱!!!这篇教程面向的对象主要是想要自己进行模型训练与测试,但是自己目前的设备性能达不到要求的小伙伴。
具体怎么申请其实有教程已经说的很清楚了,参照这里
这篇教程主要答疑几个大家比较关心的问题,以及如何部署自己的模型
如何计费
目前阿里云提供750个计算时的免费试用,分为三个月,每个月250个计算时。如何理解这个计算时,就是说根据你选择的GPU不同,每实际使用服务器一小时对应若干个计算时,参照图片:
计费的话从启动实例(相当于你具体部署环境的docker)就开始了,所以如果暂时不使用的话切记切记切记一定要关闭实例!
赠送的计算时小于50个计算时时,会收到流量预警;万一计算时用超了也不用太担心一直计费,系统检测到当前计算时没有了会自动关闭实例,但是用超过的部分会收取人民币。
电脑网络连接
因为本身是云服务器,只要训练开始之后模型会在服务器一直运行,即使本地电脑断开与服务器的连接也会接着训练,后面电脑重新连上服务器只需要再刷新下界面就可以了。
如何部署模型
界面
如果大家按照上面教程申请好服务器,创建好一个实例并启动的话,界面长这个样子
主要分为最上面的三部分:
Notebook:jupyter notebook操作台
WebIDE:vscode的IDE
Terminal:终端
环境
在创建实例的时候提供了一些镜像可供选择,会预装pytorch、python、cuda等等,但是很多时候都不完全满足我们想要部署代码的环境的,这里选一个接近要求的镜像即可
在进入实例之后我们完全可以根据需要自己去重新下载对应的cuda版本,这里建议cuda先在自己电脑下载好再上传到服务器节省时间,计算时是很宝贵的。
至于python和pytorch,建议大家使用anaconda进行环境管理,在虚拟环境中重新安装自己需要的python和pytorch版本
一定注意是先cuda版本,再到conda环境中配置pytorch和python版本,这些之间是有依赖关系的,经常配置环境的小伙伴应该知道
数据上传
训练所需要的数据包括本地的一些文件可以在jupyter工作台中进行上传,如图:
至于传输数据的速度,我这边看至少是10M+/s的速度,还是相当快的
总结
有了环境、有了数据、至于代码还有一些其它的文件在终端用git clone,wget指令下载也很简单,都准备好之后就可以开始愉快的进行训练了。需要提醒的是云服务器因为没有可视化界面,所以有些可视化的功能可能用不了(诸如open3d进行可视化之类的)。