单处理机系统的进程调度实验_教程 | 如何使用调度系统进行深度学习实验

本文介绍如何在单处理机系统的集群上利用Slurm调度系统进行深度学习任务,详细阐述了从硬件资源、集群环境、安装深度学习框架到提交作业、多卡并行的步骤,并提到了数据上传和联系支持的方式。
摘要由CSDN通过智能技术生成

深度学习是当前人工智能技术的前沿方向。算力、数据和算法是深度学习技术的三大要素。在算力方面,深度学习尤其依赖GPU的加速。为满足用户的算力需求,人大校级公共云今年购置了多种GPU,包括Tesla V100、Titan RTX、RTX 2080 Ti。

本文主要讨论在共享集群上,使用调度系统Slurm提交深度学习任务。不涉及使用JupyterLab的交互模式。使用Slurm调度系统的优势:

  1. 一个用户可以提交多个作业任务,方便实验不同的参数。
  2. 可以使用多卡并行方式加速深度学习。

硬件资源情况

首先,我们先看看当前所提供的硬件情况。

Tesla V100 Titan RTX
显存 32GB 24GB
Tensor Core 支持 支持
总线 PCI-E PCI-E
队列名 tesla titan
数量 3台 每台2卡 7台 每台2卡

对于深度学习任务,除了显卡性能,一个重要指标

编写一个处理机下的进程调度程序,模拟操作系统对进程的调度。 要求: 1.能够创建指定数量的进程,每个进程由一个进程控制块表示。 2.实现先来先服务调度算法:进程到达时间可由进程创建时间表示。 3.实现短作业优先调度算法:可指定进程要求的运行时间。(说明:对不可剥夺的短作业优先算法,当作业运行时间相等时,优先调度进程号小的进程执行;对可剥夺式的短作业优先算法,即选最短剩余时间的进程进行运行,在剩余时间相同的情况下,选择到达时间早的进程进行运行) 4. 实现时间片轮转调度算法:可指定生成时间片大小。(说明:新进程到来时插入到就绪队列的队尾,当进程P运行完一个时间片时,若同时有进程Q到达,则先在就绪队列队尾插入新到达的进程Q,之后再插入进程P) 5.实现动态优先级调度算法:可指定进程的初始优先级(优先级与优先数成反比,优先级最高为0),优先级改变遵循下列原则:进程在就绪队列中每停留一个时间片,优先级加1,进程每运行一个时间片,优先级减3。(说明:本算法在优先级相同的情况下,选择到达时间早的进程进行运行) 测试用例格式如下: 输入:调度算法    进程号/到达时间/运行时间/优先级/时间片 输出:调度顺序/进程号/开始运行时间/结束运行时间/优先级 其中调度算法选项为:1----先来先服务,2----短作业优先,3----最短剩余时间优先,4----时间片轮转,5----动态优先级
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值