如何在服务器使用GPU跑深度学习代码

一、下载对应的软件

每个人都有他们偏好的工具和工作流程。就我个人而言,我喜欢使用 PyCharm Professional Edition 作为我的集成开发环境,选择使用 HengYuan Cloud's OSS.exe 和 FileZilla 进行文件传输,并且我倾向于使用 Xshell 来处理命令行操作。这些工具的组合满足了我的所有需求,并使我的工作效率最大化。

总结来说,我们今天要用到的主要是以下几种工具:

PyCharm(必须是专业版本,否则无法进行远程连接): 它支持远程操作,虽然需要破解才能使用所有功能,相信大家都能找到破解白嫖版吧(手动狗头)

oss.exe: 传输速度非常快,而且是免费的。

Xshell: 使用方便,连接稳定,并且是免费软件,直接点击官网进行下载即可

二、创建恒源云账号和实例

1.成功注册账号后,登录恒源云账号。

2.在个人主页点击“控制台”,接着点击“实例与数据“”,然后点击“我的实例”,最后点击“创建实例”就可以创建实例了。

3.按照自己的需求选择合适的服务器就,GPU数量一般选1,然后点击官方镜像 “PyTorch / 1.10.1 / 11.3.0 / 3.8 ”(我一般都是选择这个配置),最后点击创建实例就OK了。

4.点击“我的实例”就能看到自己刚刚建的实例了,圆框的为“登录指令”和“密码”,这两个信息后面链接服务器需要。

三、OSS上传本地数据到服务器的数据中心

1.在恒源云下载oss.exe,采用命令行格式传输数据。在自己本地的电脑中,可直接打开oss.exe

2.输入“login”进行登录

3.输入自己在恒源云创建的账号和密码,即可登录

4.随后使用下面的命令将电脑本地的代码压缩包传输到恒源云账号中,注意数据必须为压缩包形式

cp  压缩文件所在目录\xxx.zip  oss://

比如:我现在要把本地的YOLOv5上传到恒源云,那么正确的命令如下:

cp  D:\workspaces\yolov5.zip  oss://

5.点击“我的数据”便可以查看到我们刚刚上传的压缩包YOLOv5.zip

四、将刚上传恒源云的压缩包再上传到实例中

1.将我们实例的登录指令和密码复制到随便的一个文本中

2.打开我们下载好的Xshell,按照下图进行操作:

至此,我们的Xshell已经连接上了服务器。

3.进入实例

①点击“JupyterLab”,然后点击“终端”

②先进入你想将压缩包放在的位置,一般是在hy-tmp这个文件夹。

cd hy-tmp

③然后在进行登录,输入恒源云的账号和密码,按回车

oss login

④下载数据集等文件至当前目录,yolov5.zip是储存在服务器中的数据,”.” 是想要在实例中存放数据的位置。

oss cp oss://yolov5.zip .

⑤解压文件夹至当前目录

unzip -q yolov5.zip

五、配置环境和安装依赖

1.pip换清华源

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

2.安装yolov5所需的依赖集

cd  yolov5    # 先进入YOLOv5文件夹
pip install -r requirements.txt

六、执行训练

七、训练结束后,从实例转存数据到电脑本地

第一种方法:

1.压缩当前目录的数据为exp3.zip文件

zip -r exp3.zip ./* 

2.将xxx.zip转存到恒源云“数据中转站”的根目录中

oss cp exp3.zip oss://

3.然后 再通过oss.exe转回本地

第二种方法:

通过下载链接直接下载到本地,刚刚我们第一种方法的时候导出了他的压缩包,直接右键然后点击下载链接到浏览器就可以进行下载了

第三种方法:(强烈推荐使用这种方法,非常省事)

FinalShell的安装与使用

使用FinalShell直接找到服务器中想要保存的文件或者文件夹,右键直接点击下载就行了。

参考文章链接:

恒源云GPU服务器使用笔记_恒源云(gpu)下载到本地-CSDN博客

  • 28
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最近,AlphaGo又带起了一波深度学习的热潮。深度学习在很多领域都大幅提高了模型的精度,使得很多以前在实验室中的技术得以运用到日常的生活之中。然而,大多数深度学习网络非常复杂,需要大量的训练样本进行训练,很多网络需要一次训练,同时额外多次的训练来调参数。时间效率上远远无法满足当前的工业需求。因此需要并行的深度学习系统提高训练速度。各大公司在构建并行深度学习系统上投入了大量的精力,包括谷歌、Facebook、微软、腾讯和百度等等。为了提高算法的并行效率,这些系统大部分使用了多机多GPU的方式。所谓多机,即是大量的机器通过网络连接组成训练集群;多GPU即是集群内部的每台机器上包含多个GPU,通过数据并行(每个GPU训练部分数据)、模型并行(每个GPU训练部分网络)或者两者混合的方式提高加快训练速度。GPU浮点运行效率很高,这导致了并行系统的主要瓶颈在于I/O效率,因此这些系统使用了诸如InfiniBand和RDMA(Remote Direct Memory Access,全称远程直接数据存取,专用于解决网络传输中服务器端数据处理的延迟)等高性能技术, 而这些技术需要昂贵的硬件支持,大大增加了系统构建和维护的成本和难度,导致这些系统很难复制和普及到通用场景。SpeeDO(Open DEEP learning System的逆序)是一个为通用硬件设计的并行深度学习系统。SpeeDO不需要特殊的I/O硬件,支持CPU/GPU集群,因此可以很方便地在各种云端环境上部署,如AWS、Google GCE、Microsoft Azure等等。SpeeDO采用了目前通用的参数服务器(parameter server)架构,依赖一系列基于JVM的开源库,使用Scala语言开发。SpeeDO的架构图如下图所示: 流程图如下图所示:SpeeDO的主要组件及其功能如下: l  Caffe:开源深度学习库,基于C ,支持CPU/GPU。原版不支持多GPU/多机并行。l  Akka:JVM上的消息队列库,负责参数服务器和工作节点之间的并发消息处理。 l  Redis:基于内存的高效并行Key-Value数据库。主要用于在参数服务器和工作节点之间传递训练的模型。这些模型一般比较大(几十至上千MB不等),不适合直接通过Akka进行传输。 l  Yarn:Hadoop2的资源管理组件,实现在多台机器上一键部署参数服务器和工作节点,实时监控各节点的运行状态,处理异常。SpeeDO提供docker镜像(只支持CPU)以方便系统的快速构建和测试,获取镜像:docker pull obdg/speedo:latest,使用方法请参考:https://github.com/openbigdatagroup/speedo。 关于SpeeDO 的更多细节,可以参阅发表在NIPS 2015 Machine Learning Systems Workshop上的论文:http://learningsys.org/papers/LearningSys_2015_paper_13.pdf。SpeeDO的代码在Github上开源:https://github.com/openbigdatagroup/speedo,并提供了详细的安装脚本和Docker文件。 标签:SpeeDO

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值