中途踩了好多坑,折腾了快一个礼拜才跑出来,真的好搞心态!!这篇帖子详细记录怎么用用阿里云服务器运行深度学习代码,雷点也都会说清楚。
我的代码运行环境:
一、购买云服务器
建议买的时候联系客服,说下自己的需求,客服会给出比较好的建议。现在有的优惠是300元优惠券和3个月试用,但3个月试用的配置好像比较一般。
这里提供下我的配置。付费类型,考虑到抢占式实例有可能会被自动释放、影响跑代码,我使用了按量付费。地域选择一个离自己比较近的。网络根据默认。
实例选择GPU类中的共享型GPU。镜像根据环境要求,选择了Ubuntu16.04,并且安全加固。
这里附上阿里云提供的参考:
- 轻量级GPU是指GPU计算型实例,可以降低小规模AI推理过程的使用成本;共享型GPU是指GPU虚拟化型实例,CPU和网络资源采用共享模式提供,内存和GPU显存采用独享模式提供,为您提供数据隔离和性能保障。
- GPU与CPU配比:对于深度学习训练,考虑GPU与CPU的最佳比例在1:8到1:12之间。如果是通用深度学习、图像识别推理等场景,GPU与CPU的比例推荐为1:4到1:12之间。
- 如果涉及大规模的深度学习训练,推荐使用GPU加速型实例,如GN系列或P系列,这些实例配备高性能NVIDIA GPU,适合深度学习和科学计算场景。(可以选择安装GPU驱动,就不用自己配啦)
存储部分,开启了快照服务。
带宽和安全组部分,记得勾上公网IP,方便远程连接服务器。安全组默认。
选择密钥对,登录服务器的时候就用密钥对验证。自己创建一个,并且保存好密钥对的.pem文件就好了。
下单,成功购买服务器啦。进入管理控制台,进行接下来的操作。
二、连接服务器
可以使用阿里云提供的workbench进行远程连接。我使用的是Xshell进行远程连接,Xftp进行文件传输。安装教程: